Modalität

Modalität beschreibt die Arten von Eingaben und Ausgaben eines KI-Modells. ChatGPT kann auf Basis einer textuellen Eingabe sowohl mit Text (Text-zu-Text) als auch mit Bildern (Text-zu-Bild) antworten. Es handelt sich bei ChatGPT also um ein multimodales System.

Modalitäten

Aus technischer Perspektive handelt es sich bei jeder Modalität um einen speziellen Datentyp.

Text
Bild / Image
Sprache / Voice
Video
Quellcode / Code
3D

Unimodal vs. Multimodal vs. Cross-Modal

Unimodal

Eine unimodale KI verarbeitet Informationen in nur einer Modalität. Ein rein textbasierter Chatbot der ausschließlich Text versteht und ausgeben kann ist unimodal (Text-zu-Text).

Multimodal

Multimodale KI-Systeme können Informationen aus verschiedenen Modalitäten integrieren und verarbeiten. Zum Beispiel kann ein System, das sowohl Bilder als auch Texte versteht und generiert, als multimodal bezeichnet werden. Dies ermöglicht eine komplexere und vielseitigere Interaktion, da das System Daten aus verschiedenen Quellen verstehen und darauf reagieren kann.

Cross-Modal

Cross-modale Systeme sind in der Lage, Informationen aus einer Modalität in eine andere zu übersetzen. Ein Beispiel hierfür wäre ein System, das ein Bild sieht und beschreiben kann, was auf diesem Bild zu sehen ist (Bild-zu-Text).