Building an Agentic Image Generator That Improves Itself
In der heutigen digitalen Welt sind visuelle Inhalte von entscheidender Bedeutung für das Marketing und die Markenkommunikation. Bezel hat sich darauf spezialisiert, Personas zu erstellen, um Marken dabei zu helfen, ihre Werbung gezielt auf bestimmte Verbraucher auszurichten. In diesem Artikel werden wir die Entwicklung eines agentischen Bildgenerators untersuchen, der sich selbst verbessert und dabei die Herausforderungen und Fortschritte in der Bildgenerierung mit KI beleuchtet.
Hintergrund
Bei Bezel verwenden wir Personas, um Marken dabei zu unterstützen, ihre Werbung auf spezifische Konsumentengruppen zuzuschneiden. Ein Beispiel für eine Persona könnte Dan sein: 31 Jahre alt, Software-Ingenieur, interessiert an Basketball und Zeit mit der Familie. Durch diesen Prozess begannen Marken, uns um die Generierung von Werbeideen zu bitten, die auf ihre Kunden zugeschnitten sind.
Methodologie
Unser Ziel war es, ein System zu entwickeln, das die Qualität der von der OpenAI API generierten Bilder automatisch verbessert. Dazu benötigten wir einen robusten Evaluator, der Imperfektionen wie verzerrten Text oder schwache visuelle Anziehungskraft erkennt und einen iterativen Feedbackprozess zur Verfeinerung des Bildes bei jedem Durchgang ermöglicht.
Definieren eines ersten Prompts
Wir begannen mit der Definition eines ersten Prompts zur Generierung unserer Anzeige. Der Prompt lautete:
„Eine Anzeige für die Sommerkampagne von Redbull. Sie sollte mehrere Geschmacksrichtungen von RedBull enthalten, umgeben von vielen Farben. Das Bild sollte auf einem Dach in San Francisco sein, mit vielen Menschen, die wie auf einer Party gesellig sind. Fügen Sie einen Rabattcode in klarer Schrift unten rechts hinzu.“
Wir stellten fest, dass gpt-image-1 Schwierigkeiten hatte, qualitativ hochwertige Bilder aus diesem Prompt zu generieren. Während die allgemeinen Konzepte vorhanden waren, fühlte sich das Ergebnis wie eine verschwommene Abstraktion an.
Ansatz 1: LLM als Richter für Textverbesserung
Wir wählten LLM-as-a-Judge als Evaluationsmethode für verschwommenen und verzerrten Text. Wir begannen, o3 zu verwenden, um Diskrepanzen im ursprünglich generierten Bild zu identifizieren. Die Ausgaben sahen aus wie eine Reihe spezifischer Probleme, wie:
„Die Geschmacksbezeichnung (‘PEACH’) wird in einem dünnen, kratzigen Stil dargestellt, der mit dem Hintergrund verschmilzt; die meisten Buchstaben sind unvollständig oder fehlen, sodass der Text nicht lesbar ist.“
Durch die iterative Bearbeitung des Bildes konnten wir die Textunschärfe über mehrere Iterationen hinweg konsistent verbessern.
Erweiterung über den Text hinaus: Komposition und Anziehungskraft
Nachdem wir erfolgreich einen Evaluator zur Erkennung von Textproblemen erstellt hatten, wollten wir auch abstraktere Probleme wie die Bildkomposition und die Anziehungskraft hinzufügen. Wir baten o3, zu beurteilen, ob die Platzierung aller Komponenten des Bildes ansprechend war und ob das Bild aus der Perspektive einer bestimmten Persona ansprechend war.
Ergebnisse und Einschränkungen
Unsere Hypothese war, dass das Modell Schwierigkeiten hatte, weil es gebeten wurde, zwei grundlegend unterschiedliche Aufgaben gleichzeitig zu erledigen: eine kreative Aufgabe – die Verbesserung der Bildkomposition und die Ausrichtung auf Zielpersonen – und eine technische Aufgabe – die Verbesserung der Klarheit der Textelemente auf Pixel-Ebene. Um diese Hypothese zu beweisen, entwickelten wir einen sekundären Ansatz, bei dem wir mit einer niedrigen Qualität der Generierung begannen und einen Evaluator zur Behebung von Textproblemen verwendeten.
Ansatz 2: Bounding Box Methode
Ein Problem, das wir bei der Verwendung von LLM-as-a-Judge für die Textunschärfe festgestellt haben, war, dass die Bildänderungen nicht auf die vom Evaluator aufgelisteten Probleme beschränkt waren. Daher schlugen wir vor, ein Modell zu verwenden, das die Bounding Boxes der textlichen Probleme generiert.
Fazit
Unsere Erkundung der agentischen Bildgenerierung hat viel über multimodale Evaluatoren und Editoren offenbart. Während LLMs starke Fähigkeiten in der natürlichen Sprachverarbeitung über visuelle Imperfektionen zeigen, kämpfen sie damit, diese hochrangigen Einsichten in präzise pixelbasierte Aktionen zu übersetzen. Diese Erkenntnisse deuten darauf hin, dass LLMs in der Lage sind, wenn das Denken auf diskrete, gut definierte Dimensionen beschränkt ist, aber ihre Leistung abnimmt, wenn sie aufgefordert werden, abstrakte ästhetische Urteile mit deterministischen pixelbasierten Korrekturen in Einklang zu bringen.
Hinterlasse einen Kommentar
An der Diskussion beteiligen?Hinterlasse uns deinen Kommentar!