Captions (Bildbeschreibungen / Untertitel)
Textuelle Beschreibungen, die Bildern oder Videosegmenten zugeordnet sind. Entscheidend für das Training von multimodalen KI-Modellen (Text-zu-Bild, Bildbeschreibung, Videoanalyse), da sie die Verbindung zwischen Text und visuellen/auditiven Inhalten herstellen.