Quantisierung mit AutoRound: Effiziente Optimierung für KI-Modelle

AutoRound ist eine Methode zur Post-Training-Quantisierung, die die Genauigkeit von Modellen mit niedriger Bitbreite steigert und gleichzeitig Leistung und Effizienz bewahrt. In einer Zeit, in der große Sprachmodelle (LLMs) und visuelle Sprachmodelle (VLMs) immer komplexer werden, stellt sich die Herausforderung, diese effizient bereitzustellen. Quantisierung bietet eine Lösung, indem sie die Modellgröße und die Inferenzlatenz reduziert.

Was ist AutoRound?

AutoRound ist eine von Intel entwickelte Methode zur Post-Training-Quantisierung (PTQ), die sich auf das Runden und Clipping von Gewichten konzentriert. Sie verwendet signierte Gradientenabstiegstechniken, um die Gewichtsrundung und die Clipping-Bereiche gemeinsam zu optimieren. Dies ermöglicht eine präzise Quantisierung mit niedriger Bitbreite (z. B. INT2 – INT8) mit minimalem Genauigkeitsverlust in den meisten Szenarien. Beispielsweise übertrifft AutoRound bei INT2 gängige Baseline-Methoden um bis zu 2,1-fach in der relativen Genauigkeit.

Hauptvorteile von AutoRound

Überlegene Genauigkeit bei niedriger Bitbreite

Die Ergebnisse von AutoRound sind besonders vielversprechend, insbesondere in Szenarien mit niedriger Bitquantisierung. Bewertungen über eine Vielzahl von Aufgaben zeigen, dass es gängige Methoden bei 2-Bit-Präzision deutlich übertrifft. Bei 4 Bit behält AutoRound in den meisten Fällen einen wettbewerbsfähigen Vorteil.

Breite der Kompatibilität

AutoRound unterstützt nahezu alle gängigen LLM-Architekturen, einschließlich bekannter Modelle wie Qwen, LLaMA und DeepSeek. Bereitgestellte quantisierte Modelle sind auf Hugging Face über Sammlungen wie OPEA und Kaitchup verfügbar. Darüber hinaus unterstützt AutoRound über 10 VLMs, darunter Mistral-Small-3.1 und Gemma3.

Flexible und effiziente Quantisierung

AutoRound benötigt nur 200 Tuning-Schritte und einen kleinen Kalibrierungsdatensatz (so wenige wie 128 Proben), um eine hohe Genauigkeit zu erreichen. Diese Effizienz führt zu schnelleren Quantisierungszeiten und einem reduzierten Ressourcenverbrauch im Vergleich zu anderen Methoden.

Wie man mit AutoRound beginnt

Die Installation von AutoRound erfolgt einfach über den Befehl:

pip install auto-round

Für die Quantisierung und Serialisierung wird derzeit nur der Offline-Modus unterstützt. Ein Beispiel für die Nutzung über die Kommandozeile könnte so aussehen:

auto-round \ 
 --model Qwen/Qwen3-0.6B \ 
 --bits 4 \ 
 --group_size 128 \ 
 --format "auto_round,auto_awq,auto_gptq" \ 
 --output_dir ./tmp_autoround

API-Nutzung von AutoRound

Die API-Nutzung von AutoRound bietet einen besseren Kompromiss zwischen Genauigkeit und Tuning-Kosten. Hier ein einfaches Beispiel:

from transformers import AutoModelForCausalLM, AutoTokenizer
from auto_round import AutoRound

model_name = "Qwen/Qwen3-0.6B"
model = AutoModelForCausalLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

bits, group_size, sym = 4, 128, True
autoround = AutoRound(model, tokenizer, bits=bits, group_size=group_size, sym=sym)
output_dir = "./tmp_autoround"
autoround.quantize_and_save(output_dir, format='auto_round,auto_awq,auto_gptq')

Fazit

AutoRound stellt einen bedeutenden Fortschritt in der Post-Training-Quantisierung für große Sprach- und visuelle Sprachmodelle dar. Durch die Kombination von hoher Genauigkeit, außergewöhnlicher Effizienz und breiter Kompatibilität mit gängigen Modellen und Geräten macht AutoRound die Quantisierung mit niedriger Bitbreite sowohl praktisch als auch leistungsstark. Wir laden Sie ein, es auszuprobieren und Teil der wachsenden Community zu werden, die die Grenzen der effizienten KI-Bereitstellung verschiebt.

Quellenliste:

Dieser Artikel wurde mithilfe von KI verfasst und basiert auf automatisch gesammelten Informationen.

Quantisierung mit AutoRound: Effiziente Optimierung für KI-Modelle

Was ist AutoRound?

Hauptvorteile von AutoRound

Überlegene Genauigkeit bei niedriger Bitbreite

Breite der Kompatibilität

Flexible und effiziente Quantisierung

Wie man mit AutoRound beginnt

API-Nutzung von AutoRound

Fazit

Quellenliste:

Hinterlasse einen Kommentar

Schreibe einen Kommentar Antwort abbrechen

Über uns

Archive

Kategorien

Was ist AutoRound?

Hauptvorteile von AutoRound

Überlegene Genauigkeit bei niedriger Bitbreite

Breite der Kompatibilität

Flexible und effiziente Quantisierung

Wie man mit AutoRound beginnt

API-Nutzung von AutoRound

Fazit

Quellenliste:

Das könnte Dich auch interessieren

Hinterlasse einen Kommentar

Schreibe einen Kommentar Antwort abbrechen

Über uns

Archive

Kategorien

Schlagwörter