Artikelbild für den Artikel: Anthropic Open-Sources Circuit Tracing Tools für AI Interpretability

Anthropic Open-Sources Circuit Tracing Tools für AI Interpretability

In der Welt der Künstlichen Intelligenz (KI) ist das Verständnis der internen Entscheidungsprozesse von Modellen von entscheidender Bedeutung. Anthropic hat kürzlich einen bedeutenden Schritt in Richtung mehr Transparenz gemacht, indem das Unternehmen neue Tools zur Nachverfolgung von Entscheidungsprozessen in großen Sprachmodellen open-sourcet. Diese Tools, die als “Attributionsgraphen” bezeichnet werden, ermöglichen es, den internen Denkprozess eines Modells nachzuvollziehen und zu verstehen, wie es zu bestimmten Ausgaben gelangt.

Einführung in die Circuit Tracing Tools

Am 29. Mai 2025 stellte Anthropic seine neueste Methode zur Nachverfolgung der Gedanken von großen Sprachmodellen vor. Diese Methode wird nun als Open-Source-Tool zur Verfügung gestellt, sodass jeder auf dieser Forschung aufbauen kann. Die Tools generieren Attributionsgraphen, die teilweise die Schritte offenbaren, die ein Modell intern durchläuft, um eine bestimmte Ausgabe zu entscheiden.

Die Funktionsweise der Attributionsgraphen

Die open-source Bibliothek, die Anthropic veröffentlicht, unterstützt die Generierung von Attributionsgraphen für gängige Modelle mit offenen Gewichten. Ein interaktives Frontend, das von Neuronpedia gehostet wird, ermöglicht es den Nutzern, die Graphen interaktiv zu erkunden. Diese Tools bieten Forschern die Möglichkeit,:

  • Schaltungen auf unterstützten Modellen nachzuvollziehen, indem sie ihre eigenen Attributionsgraphen generieren;
  • Graphen in einem interaktiven Frontend zu visualisieren, zu annotieren und zu teilen;
  • Hypothesen zu testen, indem sie Merkmalswerte ändern und beobachten, wie sich die Ausgaben des Modells ändern.

Praktische Anwendungen und Forschung

Die Tools wurden bereits eingesetzt, um interessante Verhaltensweisen wie mehrstufiges Denken und mehrsprachige Repräsentationen in den Modellen Gemma-2-2b und Llama-3.2-1b zu untersuchen. Ein Beispiel für die Anwendung dieser Tools findet sich im Demo-Notebook, das Beispiele und Analysen enthält. Die Community wird eingeladen, zusätzliche interessante Schaltungen zu finden. Zu diesem Zweck stellt Anthropic zusätzliche Attributionsgraphen zur Verfügung, die noch nicht analysiert wurden.

Die Dringlichkeit der Interpretierbarkeit

Der CEO von Anthropic, Dario Amodei, äußerte kürzlich in einem Blogbeitrag die Dringlichkeit der Forschung zur Interpretierbarkeit. Er betonte, dass unser Verständnis der inneren Funktionsweise von KI derzeit weit hinter dem Fortschritt in den Fähigkeiten der KI zurückbleibt. Durch die Open-Sourcing dieser Tools hofft Anthropic, es der breiteren Gemeinschaft zu erleichtern, zu studieren, was in Sprachmodellen vor sich geht.

Entwicklung und Zusammenarbeit

Die Entwicklung der Open-Source-Bibliothek zur Schaltungsfindung wurde von den Anthropic Fellows Michael Hanna und Mateusz Piotrowski unter der Mentorschaft von Emmanuel Ameisen und Jack Lindsey durchgeführt. Die Integration in Neuronpedia wurde von Decode Research umgesetzt, wobei Johnny Lin als Leiter von Neuronpedia und Curt Tigges als Wissenschaftsleiter fungierten.

Fazit

Die Veröffentlichung dieser Tools stellt einen bedeutenden Fortschritt in der Forschung zur Interpretierbarkeit von KI dar. Anthropic lädt die Gemeinschaft ein, diese Tools zu nutzen, um das Verhalten von Modellen besser zu verstehen und die Tools selbst weiter zu verbessern. Die Zukunft der KI-Forschung könnte durch solche Initiativen entscheidend beeinflusst werden.

Quellenliste:

Dieser Artikel wurde mithilfe von KI verfasst und basiert auf automatisch gesammelten Informationen.
0 Kommentare

Hinterlasse einen Kommentar

An der Diskussion beteiligen?
Hinterlasse uns deinen Kommentar!

Schreibe einen Kommentar