Das Gedächtnissystem von ChatGPT: Eine tiefgehende Analyse
No vector databases, no RAG over conversation history…
Als ich ChatGPT fragte, was es über mich erinnert, listete es 33 Fakten auf, von meinem Namen und meinen Karrierezielen bis hin zu meinem aktuellen Fitnessprogramm. Aber wie speichert und ruft es diese Informationen tatsächlich ab? Und warum fühlt es sich so nahtlos an? Nach umfangreichen Experimenten stellte ich fest, dass das Gedächtnissystem von ChatGPT viel einfacher ist, als ich erwartet hatte. Es verwendet keine Vektordatenbanken und keine komplexen Retrieval-Mechanismen. Stattdessen nutzt es vier verschiedene Schichten: Sitzungsmetadaten, explizit gespeicherte langfristige Fakten, leichte Zusammenfassungen kürzlicher Chats und ein gleitendes Fenster der aktuellen Konversation.
Die Struktur des Kontexts von ChatGPT
Bevor wir das Gedächtnis verstehen, ist es wichtig, die gesamte Kontextstruktur zu verstehen, die ChatGPT für jede Nachricht erhält. Die Struktur sieht folgendermaßen aus:
- Systemanweisungen
- Entwickleranweisungen
- Sitzungsmetadaten (ephemer)
- Benutzerspeicher (langfristige Fakten)
- Zusammenfassung kürzlicher Gespräche (vergangene Chats, Titel + Snippets)
- Aktuelle Sitzungsnachrichten (dieser Chat)
- Ihre letzte Nachricht
Die ersten beiden Komponenten definieren das Verhalten und die Sicherheitsregeln auf hoher Ebene. Sie stehen nicht im Mittelpunkt dieses Blogs. Die interessanten Teile beginnen mit den Sitzungsmetadaten.
Sitzungsmetadaten
Diese Details werden einmal zu Beginn einer Sitzung eingefügt. Sie werden nicht dauerhaft gespeichert und werden nicht Teil des langfristigen Gedächtnisses. Dieser Block umfasst:
- Gerätetyp (Desktop/Mobil)
- Browser + Benutzeragent
- Ungefähre Position/Zeit
- Abonnementstufe
- Nutzungsmuster und Aktivitätsfrequenz
- Verteilung der letzten Modellnutzung
- Bildschirmgröße, Dunkelmodus-Status, JS aktiviert usw.
Ein Beispiel für Sitzungsmetadaten könnte so aussehen:
Sitzungsmetadaten:
– Benutzerabonnement: ChatGPT Go
– Gerät: Desktop-Browser
– Browser-Benutzeragent: Chrome auf macOS (Intel)
– Ungefähre Position: Indien (möglicherweise VPN)
– Lokale Zeit: ~16:00
– Kontenalter: ~157 Wochen
– Letzte Aktivität: – Aktiv 1 Tag in den letzten 1 – Aktiv 5 Tage in den letzten 7 – Aktiv 18 Tage in den letzten 30
– Gesprächsmuster: – Durchschnittliche Gesprächstiefe: ~14,8 Nachrichten – Durchschnittliche Benutzer-Nachrichtenlänge: ~4057 Zeichen – Verteilung der Modellnutzung: * 5% gpt-5.1 * 49% gpt-5 * 17% gpt-4o * 6% gpt-5-a-t-mini * usw.
– Geräteumgebung: – JS aktiviert – Dunkelmodus aktiviert – Bildschirmgröße: 900×1440 – Seitenansicht: 812×1440 – Geräte-Pixelverhältnis: 2.0
– Sitzungsdauer bis jetzt: ~1100 Sekunden
Diese Informationen helfen dem Modell, die Antworten an Ihre Umgebung anzupassen, aber keine von ihnen bleibt nach dem Ende der Sitzung erhalten.
Benutzerspeicher
ChatGPT hat ein spezielles Werkzeug zum Speichern und Löschen stabiler, langfristiger Fakten über den Benutzer. Dies sind die Informationen, die sich über Wochen und Monate ansammeln, um ein dauerhaftes „Profil“ zu bilden.
In meinem Fall hatte das Modell 33 gespeicherte Fakten – Dinge wie:
- Mein Name, Alter
- Karriereziel
- Hintergrund und frühere Rollen
- Aktuelle Projekte
- Bereiche, die ich studiere
- Fitnessroutine
- Persönliche Vorlieben
- Langfristige Interessen
Diese Informationen werden nicht geraten; sie werden explizit gespeichert, wenn:
- Der Benutzer sagt „merke dir das“ oder „speichere das im Gedächtnis“, oder
- Das Modell erkennt einen Fakt, der den Kriterien von OpenAI entspricht (wie Ihren Namen, Jobtitel oder erklärte Vorlieben), und der Benutzer stimmt implizit durch das Gespräch zu.
Diese Erinnerungen werden in jede zukünftige Eingabe als separater Block eingefügt. Wenn Sie etwas hinzufügen oder entfernen möchten, können Sie einfach sagen:
- „Speichere das im Gedächtnis…“
- „Lösche das aus dem Gedächtnis…“
Beispiel:
– Der Name des Benutzers ist Manthan Gupta.
– Hat zuvor bei Merkle Science und Qoohoo (YC W23) gearbeitet.
– Bevorzugt das Lernen durch eine Mischung aus Videos, Artikeln und praktischer Arbeit.
– Hat TigerDB, CricLang, Load Balancer, FitMe entwickelt.
– Studiert moderne IR-Systeme (LDA, BM25, Hybrid, dichte Einbettungen, FAISS, RRF, LLM-Reranking).
Zusammenfassung kürzlicher Gespräche
Dieser Teil hat mich am meisten überrascht, da ich erwartet hatte, dass ChatGPT eine Art RAG über vergangene Gespräche verwendet. Stattdessen verwendet es eine leichte Zusammenfassung.
ChatGPT führt eine Liste von Zusammenfassungen kürzlicher Gespräche in folgendem Format:
: |||| Benutzer-Nachrichtenausschnitt |||||||| Benutzer-Nachrichtenausschnitt ||||
Beobachtungen:
- Es fasst nur meine Nachrichten zusammen, nicht die des Assistenten.
- Es standen etwa 15 Zusammenfassungen zur Verfügung.
- Sie dienen als lose Karte meiner jüngsten Interessen, nicht als detaillierter Kontext.
Dieser Block gibt ChatGPT ein Gefühl der Kontinuität über Chats hinweg, ohne vollständige Transkripte zu ziehen.
Traditionelle RAG-Systeme würden erfordern:
- Jede vergangene Nachricht einzubetten
- Ähnlichkeitssuchen für jede Anfrage durchzuführen
- Vollständige Nachrichtenkontexte zu ziehen
- Höhere Latenz und Token-Kosten
Der Ansatz von ChatGPT ist einfacher: vorab berechnete leichte Zusammenfassungen werden direkt eingefügt. Dies tauscht detaillierten Kontext gegen Geschwindigkeit und Effizienz.
Aktuelle Sitzungsnachrichten
Dies ist das normale gleitende Fenster der gegenwärtigen Konversation. Es enthält die gesamte Historie (nicht zusammengefasst) aller Nachrichten, die in dieser Sitzung ausgetauscht wurden.
Ich konnte das genaue Token-Limit von ChatGPT nicht herausfinden, aber es bestätigte:
- Die Obergrenze basiert auf der Tokenanzahl, nicht auf der Anzahl der Nachrichten.
- Sobald das Limit erreicht ist, fallen ältere Nachrichten in der aktuellen Sitzung weg (aber Gedächtnisfakten und Gesprächszusammenfassungen bleiben).
- Alles in diesem Block wird wörtlich an das Modell übergeben, wodurch der volle Gesprächskontext erhalten bleibt.
Dies ermöglicht es dem Assistenten, innerhalb einer Sitzung kohärent zu argumentieren.
Wie alles zusammenarbeitet
Wenn Sie eine Nachricht an ChatGPT senden, passiert Folgendes:
- Sitzung startet: Sitzungsmetadaten werden einmal eingefügt, um ChatGPT Kontext über Ihr Gerät, Abonnement und Nutzungsmuster zu geben.
- Jede Nachricht: Ihre gespeicherten Gedächtnisfakten (in meinem Fall 33) werden immer einbezogen, um sicherzustellen, dass die Antworten mit Ihren Vorlieben und Ihrem Hintergrund übereinstimmen.
- Cross-Chat-Bewusstsein: Die Zusammenfassung kürzlicher Gespräche bietet eine leichte Karte Ihrer Interessen, ohne vollständige Transkripte zu ziehen.
- Aktueller Kontext: Das gleitende Fenster der aktuellen Sitzungsnachrichten erhält die Kohärenz innerhalb des Gesprächs.
- Token-Budget: Während die Sitzung wächst, fallen ältere Nachrichten weg, aber Ihre Gedächtnisfakten und Gesprächszusammenfassungen bleiben erhalten, um die Kontinuität zu bewahren.
Dieser mehrschichtige Ansatz bedeutet, dass ChatGPT persönlich und kontextbewusst erscheinen kann, ohne die Rechenkosten traditioneller RAG-Systeme zu verursachen.
Fazit
Das Gedächtnissystem von ChatGPT ist eine mehrschichtige Architektur, die Personalisierung, Leistung und Token-Effizienz ausbalanciert. Durch die Kombination von ephemeral Sitzungsmetadaten, expliziten langfristigen Fakten, leichten Gesprächszusammenfassungen und einem gleitenden Fenster aktueller Nachrichten erreicht ChatGPT etwas Bemerkenswertes: Es fühlt sich persönlich und kontextbewusst an, ohne die Rechenlast traditioneller RAG-Systeme.
Die zentrale Erkenntnis hier ist, dass nicht alles im traditionellen Sinne „Gedächtnis“ sein muss. Sitzungsmetadaten passen sich in Echtzeit an Ihre Umgebung an. Explizite Fakten bestehen über Sitzungen hinweg. Gesprächszusammenfassungen bieten Kontinuität ohne Detail. Und die aktuelle Sitzung erhält die Kohärenz.
Zusammen schaffen diese dynamischen Komponenten – jede aktualisiert, während die Sitzung fortschreitet und sich Ihre Vorlieben entwickeln – die Illusion eines Systems, das Sie wirklich kennt.
Für Benutzer bedeutet dies, dass ChatGPT im Laufe der Zeit zunehmend persönlich erscheinen kann, ohne dass ein explizites Wissensmanagement erforderlich ist. Für Entwickler ist es eine Lektion in pragmatischer Technik: Manchmal übertreffen einfachere, kuratierte Ansätze komplexe Retrieval-Systeme, insbesondere wenn Sie die gesamte Pipeline kontrollieren.
Der Kompromiss ist klar: ChatGPT opfert detaillierten historischen Kontext für Geschwindigkeit und Effizienz. Aber für die meisten Gespräche ist das genau das richtige Gleichgewicht. Das System erinnert sich an das, was wichtig ist (Ihre Vorlieben, Ziele und jüngsten Interessen), während es schnell und reaktionsschnell bleibt.










Hinterlasse einen Kommentar
An der Diskussion beteiligen?Hinterlasse uns deinen Kommentar!