Eine Analyse der drei jüngsten Infrastrukturprobleme von Claude
In den letzten Monaten hat Claude, das KI-Modell von Anthropic, mit mehreren Infrastrukturfehlern zu kämpfen gehabt, die die Qualität seiner Antworten beeinträchtigt haben. Zwischen August und September 2025 traten drei überlappende Bugs auf, die zu einer signifikanten Verschlechterung der Antwortqualität führten. In diesem Artikel werden wir die Ursachen dieser Probleme, die Herausforderungen bei ihrer Behebung und die Maßnahmen, die ergriffen wurden, um zukünftige Vorfälle zu verhindern, eingehend untersuchen.
Einführung in die Probleme
Die Berichte über die verschlechterte Leistung von Claude begannen Anfang August, als Nutzer feststellten, dass die Antworten des Modells nicht den gewohnten Standards entsprachen. Zunächst waren diese Berichte schwer von normaler Variabilität im Nutzerfeedback zu unterscheiden. Doch als die Häufigkeit und Persistenz dieser Berichte zunahm, entschloss sich Anthropic, eine Untersuchung einzuleiten, die schließlich drei separate Infrastrukturfehler aufdeckte.
Die drei überlappenden Bugs
Die Probleme, die die Antwortqualität von Claude beeinträchtigten, können wie folgt zusammengefasst werden:
- Kontextfenster-Routing-Fehler: Am 5. August wurde ein Fehler eingeführt, der dazu führte, dass einige Anfragen an Server weitergeleitet wurden, die für ein bevorstehendes 1M-Token-Kontextfenster konfiguriert waren. Dies betraf zunächst 0,8 % der Anfragen. Ein Lastenausgleichswechsel am 29. August verschärfte die Situation, sodass bis zu 16 % der Anfragen betroffen waren.
- Ausgabe-Korruption: Am 25. August wurde eine fehlerhafte Konfiguration auf den TPU-Servern des Claude-API bereitgestellt, die zu Fehlern bei der Token-Generierung führte. Dies führte dazu, dass einige Benutzer unerwartete Zeichen oder Syntaxfehler in den Antworten erhielten.
- Ungefährer Top-K XLA:TPU-Miscompilation: Ebenfalls am 25. August wurde ein Code bereitgestellt, der die Auswahl von Tokens während der Textgenerierung verbesserte, jedoch einen latenten Fehler im XLA:TPU-Compiler auslöste, der die Qualität der Antworten beeinträchtigte.
Ursachen und Auswirkungen
Die Ursachen dieser Bugs waren vielfältig und komplex. Der Kontextfenster-Routing-Fehler führte dazu, dass Nutzer inkonsistente Antworten erhielten, da einige Anfragen an die falschen Server weitergeleitet wurden. Dies führte zu Verwirrung und widersprüchlichen Berichten über die Leistung von Claude.
Die Ausgabe-Korruption hatte zur Folge, dass einige Benutzer unerwartete Zeichen in ihren Antworten sahen, was die Verlässlichkeit des Modells in Frage stellte. Diese Probleme traten vor allem bei Anfragen auf, die in Englisch gestellt wurden, und führten zu einer erheblichen Frustration bei den Nutzern.
Der Fehler im XLA:TPU-Compiler war besonders herausfordernd, da er sporadisch auftrat und von verschiedenen Faktoren abhängen konnte, was die Diagnose und Behebung erschwerte. Die Kombination dieser Bugs führte zu einem signifikanten Rückgang der Nutzerzufriedenheit und stellte die hohen Qualitätsstandards von Anthropic in Frage.
Maßnahmen zur Behebung der Probleme
Die Ingenieure von Anthropic arbeiteten intensiv an der Behebung dieser Probleme. Für jeden der drei Bugs wurden spezifische Lösungen entwickelt:
- Für den Kontextfenster-Routing-Fehler wurde die Routing-Logik angepasst, um sicherzustellen, dass Anfragen an die richtigen Serverpools geleitet werden. Die Lösung wurde am 4. September implementiert.
- Die Ausgabe-Korruption wurde durch ein Rollback der fehlerhaften Konfiguration am 2. September behoben, und es wurden Tests zur Erkennung unerwarteter Zeichen in den Ausgaben eingeführt.
- Der Fehler im XLA:TPU-Compiler wurde ebenfalls am 4. September zurückgesetzt, und es wurden Maßnahmen ergriffen, um die Token-Auswahl zu verbessern.
Verbesserungen zur Vermeidung zukünftiger Vorfälle
Um ähnliche Vorfälle in der Zukunft zu verhindern, hat Anthropic eine Reihe von Änderungen an seinen Evaluierungs- und Debugging-Prozessen vorgenommen:
- Einführung sensiblerer Evaluierungen, die eine zuverlässigere Unterscheidung zwischen funktionierenden und fehlerhaften Implementierungen ermöglichen.
- Kontinuierliche Evaluierungen auf Produktionssystemen, um Probleme frühzeitig zu erkennen.
- Entwicklung von Werkzeugen zur schnelleren Fehlerbehebung, die es ermöglichen, Nutzerfeedback besser zu analysieren, ohne die Privatsphäre der Nutzer zu gefährden.
Darüber hinaus wird die Community ermutigt, weiterhin Feedback zu geben, um die Qualität von Claude zu verbessern. Nutzer können über die /bug-Befehle in Claude Code oder die „Daumen runter“-Schaltfläche in den Claude-Anwendungen Rückmeldungen geben.
Fazit
Die jüngsten Infrastrukturprobleme von Claude haben die Herausforderungen aufgezeigt, die mit der Bereitstellung eines KI-Modells auf globaler Ebene verbunden sind. Anthropic hat die Probleme erkannt und Maßnahmen ergriffen, um die Qualität und Zuverlässigkeit seiner Dienste zu gewährleisten. Durch kontinuierliche Verbesserungen und eine enge Zusammenarbeit mit der Nutzerbasis wird angestrebt, ähnliche Vorfälle in der Zukunft zu vermeiden und das Nutzererlebnis zu optimieren.
Quellenliste:
- Quelle: A postmortem of three recent issues
- Anthropic – Offizielle Webseite
- Amazon Web Services – Cloud Computing
- Google Cloud – Cloud Services
Hinterlasse einen Kommentar
An der Diskussion beteiligen?Hinterlasse uns deinen Kommentar!