Knowledge Cutoff

Der Knowledge Cutoff ist der Zeitpunkt, bis zu dem ein KI-Modell trainiert wurde und Informationen sammeln konnte. Alle Ereignisse, Entwicklungen, Forschungsergebnisse und Daten, die nach diesem Datum liegen, sind dem KI-Modell nicht bekannt.

Trainingsdaten

Large-Language-Modells (LLMs) lernen aus einer riesigen Menge an Textdaten, die aus verschiedenen Quellen stammen können, wie Bücher, Artikel, Websites und andere Textdokumente. Diese Daten müssen gesammelt, verarbeitet und organisiert werden, bevor das Training des Modells beginnt.

Aktualität der Informationen

Jedes LLM ist nur so aktuell wie die Daten, mit denen es trainiert wurde. Wenn beispielsweise ein Modell mit Daten trainiert wurde, die nur bis Ende 2022 reichen, dann wird sein Wissen über Ereignisse, Technologien, Forschungsergebnisse und kulturelle Entwicklungen, die nach diesem Datum auftreten, begrenzt oder nicht vorhanden sein.

Dynamische Welt

Die Welt verändert sich ständig, und neue Informationen entstehen fortlaufend. Daher kann ein LLM, das zu einem bestimmten Zeitpunkt trainiert wurde, schnell veraltete oder unvollständige Informationen enthalten, besonders in schnelllebigen Bereichen wie Technologie, Politik oder Popkultur.

Keine Echtzeit-Updates

Im Gegensatz zu Systemen, die in Echtzeit auf das Internet zugreifen und ständig aktualisiert werden, werden LLMs zu einem bestimmten Zeitpunkt mit einem festen Datensatz trainiert. Nach diesem Training können sie keine neuen Informationen mehr aufnehmen, bis sie mit neueren Daten neu trainiert werden.

Genauigkeit und Relevanz

Der Knowledge Cutoff beeinflusst die Genauigkeit und Relevanz der vom Modell generierten Informationen. Zum Beispiel könnte ein LLM, das vor wichtigen wissenschaftlichen Durchbrüchen oder historischen Ereignissen trainiert wurde, ungenaue oder veraltete Antworten geben, wenn es um diese Themen geht.

Herausforderungen bei der Aktualisierung

Das Trainieren und Aktualisieren von LLMs ist ein komplexer und ressourcenintensiver Prozess. Es erfordert nicht nur das Sammeln und Verarbeiten neuer Daten, sondern auch das erneute Training des Modells, was viel Zeit und Rechenleistung erfordern kann.

Retrieval Augmented Generation (RAG) stellt eine schnelle und kosteneffiziente Möglichkeit dar, das LLM mit aktuellen Daten anzureichern. RAG ermöglicht dem LLM auf aktuelle Daten und Informationen aus dem Internet zuzugreifen. Durch diese Kontextinformationen kann das Knowledge Cutoff einfach umgangen werden.

Knowledge Cutoff bei ChatGPT

Der Knowledge Cutoff bei ChatGPT hängt wie bei allen anderen Sprachmodellen von der Version und den verwendeten Trainingsdaten ab.

ChatGPT 3.5: Januar 2022
ChatGPT 4: April 2023