Modalität
Modalität beschreibt die Arten von Eingaben und Ausgaben eines KI-Modells. ChatGPT kann auf Basis einer textuellen Eingabe sowohl mit Text (Text-zu-Text) als auch mit Bildern (Text-zu-Bild) antworten. Es handelt sich bei ChatGPT also um ein multimodales System.
Modalitäten
Aus technischer Perspektive handelt es sich bei jeder Modalität um einen speziellen Datentyp.
- Text
- Bild / Image
- Sprache / Voice
- Video
- Quellcode / Code
- 3D
Unimodal vs. Multimodal vs. Cross-Modal
Unimodal
Eine unimodale KI verarbeitet Informationen in nur einer Modalität. Ein rein textbasierter Chatbot der ausschließlich Text versteht und ausgeben kann ist unimodal (Text-zu-Text).
Multimodal
Multimodale KI-Systeme können Informationen aus verschiedenen Modalitäten integrieren und verarbeiten. Zum Beispiel kann ein System, das sowohl Bilder als auch Texte versteht und generiert, als multimodal bezeichnet werden. Dies ermöglicht eine komplexere und vielseitigere Interaktion, da das System Daten aus verschiedenen Quellen verstehen und darauf reagieren kann.
Cross-Modal
Cross-modale Systeme sind in der Lage, Informationen aus einer Modalität in eine andere zu übersetzen. Ein Beispiel hierfür wäre ein System, das ein Bild sieht und beschreiben kann, was auf diesem Bild zu sehen ist (Bild-zu-Text).