Joint Visual-Text Models (Gemeinsame Visuell-Textuelle Modelle)
KI-Modelle, die darauf spezialisiert sind, Informationen aus visuellen Daten (Bildern, Videos) und textuellen Daten gleichzeitig zu verarbeiten und zu verstehen, um Aufgaben wie Bildbeschriftung, visuelle Fragenbeantwortung oder multimodale Suche zu lösen.