Visuelle Merkmale über Modalitäten hinweg: SVG und ASCII Kunst enthüllen ein Verständnis über Modalitäten
Claude’s interne Neuronen können erkennen, wenn Text visuelle Kunst bildet. Das gleiche Neuron, das für das Wort “Augen” feuert, wird auch aktiv, wenn es @-Symbole sieht. In diesem Artikel untersuchen wir die Mechanismen, die großen Sprachmodellen (LLMs) helfen, visuelle Eigenschaften von Text zu erkennen und zu generieren, insbesondere in Form von ASCII- und SVG-Kunst.
Einleitung
In unserer neuesten Forschung haben wir die Möglichkeiten von LLMs untersucht, um nicht nur die grundlegenden visuellen Eigenschaften von Text zu erkennen, sondern auch höhere semantische Konzepte, die visuell in Text kodiert sind. Die Frage, die wir uns stellten, war: Können Modelle die Augen in einem ASCII-Gesicht erkennen? Und wie sieht es mit Augen aus, die in SVG-Code dargestellt sind? Unsere Ergebnisse zeigen, dass die gleichen Merkmale, die für die Augen in einem ASCII-Gesicht aktiviert werden, auch für Augen in verschiedenen textbasierten Modalitäten aktiv sind, einschließlich SVG-Code und Prosa in verschiedenen Sprachen.
Merkmalsdarstellungen visueller Darstellungen
Wir begannen mit der Generierung von ASCII- und SVG-Smileys mit Claude und untersuchten dann die Merkmalsaktivierungen des Modells Haiku 3.5. In allen Fällen entfernten wir alle Kommentare oder Beschreibungen, die die einzelnen Körperteile oder das Gesamtbild als Gesicht identifizieren könnten. Ein Merkmal, das wir fanden, repräsentierte das Konzept von “Augen über Sprachen und Beschreibungen” und wurde sowohl bei ASCII- als auch bei SVG-Darstellungen aktiviert.
Die Aktivierung dieser Merkmale hängt stark vom umgebenden Kontext ab. Ein @ allein aktiviert das “Augen”-Merkmal nicht, es sei denn, es wird von Linien umgeben, die ASCII-Kunst etablieren. In SVGs wird das “Augen”-Merkmal nur aktiviert, wenn es einem Kreis folgt, der die Form des Gesichts definiert. Diese Sensibilität für den Kontext zeigt, wie wichtig die umgebenden Elemente sind, um die Bedeutung der visuellen Darstellungen zu verstehen.
Visuelle Steuerung mit semantischen Merkmalen
Wir haben gezeigt, dass Merkmale nicht nur semantisch bedeutende Elemente von SVG- und ASCII-Kunst repräsentieren, sondern auch die Generierung visueller Darstellungen beeinflussen können. Um dies zu untersuchen, führten wir eine Steuerungsaufgabe durch, bei der wir dem Modell Sonnet 4.5 den Befehl gaben, ein einfaches SVG zu erstellen, das einem vorgegebenen Beispiel ähnelt. Durch die Steuerung auf verschiedene Merkmale konnten wir bedeutungsvolle semantische Variationen erzeugen.
Ein Beispiel für die Steuerung war die negative Steuerung auf ein “Lächeln”-Merkmal, das zu einem SVG mit einem traurigen Gesicht führte. Diese motorischen Merkmale zeigen oft einen sanften Übergang, wenn die Steuerungsstärke erhöht wird, was zu einem neutralen Gesicht als Übergang führte.
Fazit
Zusammenfassend zeigen unsere Ergebnisse, dass viele Merkmale, die für die Beschreibung von Konzepten in reinem Text aktiv sind, auch für die Erkennung und Generierung textbasierter visueller Darstellungen dieser Konzepte aktiv sind. Unsere Forschung eröffnet neue Fragen zur Entwicklung von LLMs und deren Fähigkeit, visuelle Kunst zu verstehen und zu erzeugen.
Quellenliste:
- Quelle: VISUAL FEATURES ACROSS MODALITIES: SVG AND ASCII ART REVEAL CROSS-MODAL UNDERSTANDING
- Data Point Initialization for Dictionary Models










Hinterlasse einen Kommentar
An der Diskussion beteiligen?Hinterlasse uns deinen Kommentar!