Data Tokenization
- Die Aufteilung von Texten in kleinere Einheiten wie Wörter, Subwörter oder Zeichen, die dann numerisch kodiert werden können. Grundlage für die Verarbeitung von Sprache in LLMs.
Das erste große deutschsprachige KI-Lexikon
Ein Community-Projekt von David Mirga
- Die Aufteilung von Texten in kleinere Einheiten wie Wörter, Subwörter oder Zeichen, die dann numerisch kodiert werden können. Grundlage für die Verarbeitung von Sprache in LLMs.