Einführung von Gemma 3n: Der Entwicklerleitfaden

Google hat kürzlich ein äußerst bedeutendes neues Modell mit offenen Gewichten veröffentlicht, das multimodal konzipiert ist und für den Einsatz auf Endgeräten optimiert wurde. Gemma 3n akzeptiert Texte, Bilder und Audios als Eingaben. Für den Launch hat Google mit zahlreichen Partnern wie AMD, Axolotl, Docker, Hugging Face, llama.cpp, LMStudio, MLX, NVIDIA, Ollama, RedHat, SGLang, Unsloth und vLLM zusammengearbeitet, sodass es zahlreiche Möglichkeiten gibt, das Modell auszuprobieren. In diesem Artikel geben wir Ihnen eine kurze Anleitung, wie Sie das Modell auf macOS einrichten und verwenden können.

Multimodalität und Effizienz

Gemma 3n ist multimodal gestaltet, was bedeutet, dass es nicht nur Texte, sondern auch Bilder und Audios verarbeiten kann. Dies eröffnet eine Vielzahl von Anwendungsmöglichkeiten, die über die traditionellen Textverarbeitungsmodelle hinausgehen. Die Modelle sind in zwei Größen erhältlich, die auf effektiven Parametern basieren: E2B und E4B. Während die Rohparameterzahlen 5B und 8B betragen, ermöglichen architektonische Innovationen, dass sie mit einem Speicherbedarf betrieben werden können, der mit traditionellen 2B- und 4B-Modellen vergleichbar ist. So benötigen die Modelle lediglich 2GB (E2B) und 3GB (E4B) Arbeitsspeicher.

Erste Schritte mit Gemma 3n

Die ersten Schritte mit Gemma 3n sind einfach. Ich habe zwei Varianten auf meinem Mac Laptop ausprobiert. Ollama bietet eine 7,5GB-Version des 4B-Modells an, die ich mit folgendem Befehl installiert habe:

ollama pull gemma3n
llm install llm-ollama
llm -m gemma3n:latest "Generate an SVG of a pelican riding a bicycle"

Das Ergebnis war eine beeindruckende SVG-Grafik eines Pelikans, der Fahrrad fährt. Allerdings unterstützt die Ollama-Version derzeit noch keine Bild- oder Audioeingaben.

Audioverarbeitung mit mlx-vlm

Für die Verarbeitung von Audiodaten habe ich die mlx-vlm-Version verwendet. Zunächst habe ich eine WAV-Datei getestet:

uv run --with mlx-vlm mlx_vlm.generate \
 --model gg-hf-gm/gemma-3n-E4B-it \
 --max-tokens 100 \
 --temperature 0.7 \
 --prompt "Transcribe the following speech segment in English:" \
 --audio pelican-joke-request.wav

Das Modell hat die Audiodatei erfolgreich transkribiert und den folgenden Text ausgegeben:

„Tell me a joke about a pelican.“

Zusätzlich habe ich das Modell gebeten, ein Bild eines Pelikans zu zeichnen:

uv run --with mlx-vlm mlx_vlm.generate \
 --model gg-hf-gm/gemma-3n-E4B-it \
 --max-tokens 100 \
 --temperature 0.7 \
 --prompt "Generate an SVG of a pelican riding a bicycle"

Das Ergebnis war eine sehr ansprechende Illustration. Es ist interessant zu sehen, wie sich die visuellen Unterschiede zwischen den 7,5GB- und 15GB-Modellquantisierungen auswirken.

Bildbeschreibung und Analyse

Nachdem ich das Bild erstellt hatte, ließ ich das Modell eine Beschreibung des Bildes generieren:

uv run --with mlx-vlm mlx_vlm.generate \
 --model gg-hf-gm/gemma-3n-E4B-it \
 --max-tokens 1000 \
 --prompt "Describe image" \
 --image gemma3n-mlx-vlm.jpg

Die Antwort des Modells war überraschend und zeigte, dass es das Bild als chemisches Diagramm interpretierte:

„Das Bild ist eine cartoonartige Illustration, die eine molekulare Struktur vor einem hellblauen Hintergrund darstellt. Die Struktur besteht aus mehreren unterschiedlich gefärbten und geformten Elementen, die durch geschwungene schwarze Linien verbunden sind.“

Diese Art der Analyse zeigt, wie leistungsfähig und vielseitig Gemma 3n ist, auch wenn die Interpretationen manchmal unerwartet sind.

Fazit

Gemma 3n stellt einen bedeutenden Fortschritt in der Entwicklung multimodaler KI-Modelle dar. Mit der Fähigkeit, Texte, Bilder und Audios zu verarbeiten, eröffnet es neue Möglichkeiten für Entwickler und Kreative. Die Partnerschaften mit führenden Unternehmen der Branche ermöglichen es, das Modell auf verschiedene Arten auszuprobieren und zu implementieren. Die Effizienz und Flexibilität von Gemma 3n machen es zu einem wertvollen Werkzeug in der heutigen KI-Landschaft.

Quellenliste:

Quelle: Introducing Gemma 3n: The developer guide
Ollama Gemma 3n
mlx-vlm GitHub Repository

Dieser Artikel wurde mithilfe von KI verfasst und basiert auf automatisch gesammelten Informationen.

Einführung von Gemma 3n: Der Entwicklerleitfaden

Multimodalität und Effizienz

Erste Schritte mit Gemma 3n

Audioverarbeitung mit mlx-vlm

Bildbeschreibung und Analyse

Fazit

Quellenliste:

Hinterlasse einen Kommentar

Schreibe einen Kommentar Antwort abbrechen

Über uns

Archive

Kategorien

Multimodalität und Effizienz

Erste Schritte mit Gemma 3n

Audioverarbeitung mit mlx-vlm

Bildbeschreibung und Analyse

Fazit

Quellenliste:

Das könnte Dich auch interessieren

Hinterlasse einen Kommentar

Schreibe einen Kommentar Antwort abbrechen

Über uns

Archive

Kategorien

Schlagwörter