Mit Konzepten malen: Die Nutzung von Diffusionsmodell-Latenten
Goodfire hat Paint With Ember eingeführt – ein innovatives Tool, das es Nutzern ermöglicht, die neuronalen Aktivierungen von Bildmodellen direkt zu manipulieren, indem sie einfache Pixelbilder malen, anstatt Textaufforderungen zu verwenden. Diese Methode eröffnet neue Wege der Interaktion mit generativen Modellen und fördert kreative Ausdrucksformen.
Einführung in Paint With Ember
Paint With Ember ersetzt die traditionelle Schnittstelle zwischen Kreativen und Bildmodellen – die vertraute Eingabebox – durch eine Leinwand, die direkt in das “Gehirn” des Modells eingreift. Während es weiterhin möglich ist, das Modell über Textaufforderungen zu steuern (zum Beispiel zur Spezifizierung eines Stils), bietet die Leinwand eine 2D-Oberfläche, um kreative Absichten mit vertrauten Werkzeugen wie Malen und Ziehen auszudrücken. Diese Aktionen entsprechen der Manipulation der internen Aktivierungen des Modells in bestimmten räumlichen Regionen des generierten Bildes.
Funktionen von Paint With Ember
Die Anwendung ermöglicht verschiedene kreative Aktionen:
- Mit Konzepten malen: Neue Objekte zur Szene hinzufügen, indem man mit verschiedenen Faktoren malt.
- Konzepte ziehen: Gemalte Regionen in der Szene durch Ziehen bewegen.
- Inhaltsanpassung: Den semantischen Inhalt jedes Faktors anpassen, indem die Gewichte der enthaltenen Merkmale geändert werden.
- Bearbeitung von Interaktionen: Was die Subjekte in der Szene tun, modifizieren, indem man mit Merkmalen malt.
Technische Grundlagen
Die Anwendung nutzt Stable Diffusion XL-Turbo, ein latentes Diffusionsmodell mit 3,5 Milliarden Parametern, das Bilder in nur 1-4 Zeitschritten generieren kann, was nahezu eine Echtzeit-Generierung ermöglicht. Die Interpretation konzentriert sich auf eine spezifische Schicht des Modells, die als block down.2.1 bekannt ist, wo das Modell die Gesamtzusammensetzung des Bildes bestimmt.
In dieser Schicht wird das Bild in 16×16-Patches zerlegt, die analog zu Tokens in einem Sprachmodell sind. Jeder der 256 Patches wird durch einen Vektor im latenten Raum des Modells dargestellt, und die Patches interagieren sowohl untereinander als auch mit der Eingabeaufforderung durch Selbst- und Kreuzaufmerksamkeit.
Die Rolle der Merkmale und Faktoren
Die primären konzeptionellen Einheiten in der Anwendung sind Faktoren, die als Konzepte bezeichnet werden, und Merkmale, die die Untereinheiten der Faktoren darstellen. Faktoren sind gewichtete Summen von Merkmalen und können als Cluster von Merkmalen betrachtet werden, die höhere visuelle Elemente repräsentieren.
Die Anwendung verwendet BatchTopK Sparse Autoencoders, um die Merkmale zu identifizieren, die das Modell in jedem Patch berücksichtigt. Diese Merkmale sind jedoch oft zu feingliedrig für die meisten Interaktionen mit einem Bild. Daher wurde eine nicht-negative Matrixfaktorisierung (NMF) verwendet, um diese Merkmale in höhere Abstraktionen zu bündeln, die nützlichere Aktionen ermöglichen.
Warum Paint With Ember?
Die Mission von Goodfire ist es, Forschung und Tools zu entwickeln, die der Menschheit helfen, die nächste Generation von KI-Systemen zu verstehen und absichtlich zu gestalten. Paint With Ember demonstriert, wie Techniken zur Interpretierbarkeit neue Möglichkeiten schaffen, um mit Modellen zu interagieren, die ansonsten als Black Boxes betrachtet werden könnten.
Die Anwendung ist ein unterhaltsames und zugängliches Werkzeug, das die Ziele von Goodfire verkörpert und es Nutzern ermöglicht, die Möglichkeiten der KI kreativ zu erkunden.
Quellenliste:
- Quelle: Painting with concepts using diffusion model latents
- SAE Model Open Source
- Stable Diffusion XL-Turbo
- Under the hood of a reasoning model
- Interpreting Evo 2: Arc Institute’s Next-Generation Genomic Foundation Model
Hinterlasse einen Kommentar
An der Diskussion beteiligen?Hinterlasse uns deinen Kommentar!