Byte Pair Encoding (BPE)
Ein Datenkompressionsalgorithmus, der häufig zur Tokenisierung von Text in NLP-Modellen verwendet wird. Er lernt, häufig vorkommende Zeichenpaare zu neuen Symboleinheiten zusammenzufassen, um eine Balance zwischen Zeichen- und Wort-Tokenisierung zu finden und das Vokabular zu begrenzen.