Quantisierung mit AutoRound: Effiziente Optimierung für KI-Modelle
AutoRound ist eine Methode zur Post-Training-Quantisierung, die die Genauigkeit von Modellen mit niedriger Bitbreite steigert und gleichzeitig Leistung und Effizienz bewahrt. In einer Zeit, in der große Sprachmodelle (LLMs) und visuelle Sprachmodelle (VLMs) immer komplexer werden, stellt sich die Herausforderung, diese effizient bereitzustellen. Quantisierung bietet eine Lösung, indem sie die Modellgröße und die Inferenzlatenz reduziert.
Was ist AutoRound?
AutoRound ist eine von Intel entwickelte Methode zur Post-Training-Quantisierung (PTQ), die sich auf das Runden und Clipping von Gewichten konzentriert. Sie verwendet signierte Gradientenabstiegstechniken, um die Gewichtsrundung und die Clipping-Bereiche gemeinsam zu optimieren. Dies ermöglicht eine präzise Quantisierung mit niedriger Bitbreite (z. B. INT2 – INT8) mit minimalem Genauigkeitsverlust in den meisten Szenarien. Beispielsweise übertrifft AutoRound bei INT2 gängige Baseline-Methoden um bis zu 2,1-fach in der relativen Genauigkeit.
Hauptvorteile von AutoRound
Überlegene Genauigkeit bei niedriger Bitbreite
Die Ergebnisse von AutoRound sind besonders vielversprechend, insbesondere in Szenarien mit niedriger Bitquantisierung. Bewertungen über eine Vielzahl von Aufgaben zeigen, dass es gängige Methoden bei 2-Bit-Präzision deutlich übertrifft. Bei 4 Bit behält AutoRound in den meisten Fällen einen wettbewerbsfähigen Vorteil.
Breite der Kompatibilität
AutoRound unterstützt nahezu alle gängigen LLM-Architekturen, einschließlich bekannter Modelle wie Qwen, LLaMA und DeepSeek. Bereitgestellte quantisierte Modelle sind auf Hugging Face über Sammlungen wie OPEA und Kaitchup verfügbar. Darüber hinaus unterstützt AutoRound über 10 VLMs, darunter Mistral-Small-3.1 und Gemma3.
Flexible und effiziente Quantisierung
AutoRound benötigt nur 200 Tuning-Schritte und einen kleinen Kalibrierungsdatensatz (so wenige wie 128 Proben), um eine hohe Genauigkeit zu erreichen. Diese Effizienz führt zu schnelleren Quantisierungszeiten und einem reduzierten Ressourcenverbrauch im Vergleich zu anderen Methoden.
Wie man mit AutoRound beginnt
Die Installation von AutoRound erfolgt einfach über den Befehl:
pip install auto-round
Für die Quantisierung und Serialisierung wird derzeit nur der Offline-Modus unterstützt. Ein Beispiel für die Nutzung über die Kommandozeile könnte so aussehen:
auto-round \
--model Qwen/Qwen3-0.6B \
--bits 4 \
--group_size 128 \
--format "auto_round,auto_awq,auto_gptq" \
--output_dir ./tmp_autoround
API-Nutzung von AutoRound
Die API-Nutzung von AutoRound bietet einen besseren Kompromiss zwischen Genauigkeit und Tuning-Kosten. Hier ein einfaches Beispiel:
from transformers import AutoModelForCausalLM, AutoTokenizer
from auto_round import AutoRound
model_name = "Qwen/Qwen3-0.6B"
model = AutoModelForCausalLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)
bits, group_size, sym = 4, 128, True
autoround = AutoRound(model, tokenizer, bits=bits, group_size=group_size, sym=sym)
output_dir = "./tmp_autoround"
autoround.quantize_and_save(output_dir, format='auto_round,auto_awq,auto_gptq')
Fazit
AutoRound stellt einen bedeutenden Fortschritt in der Post-Training-Quantisierung für große Sprach- und visuelle Sprachmodelle dar. Durch die Kombination von hoher Genauigkeit, außergewöhnlicher Effizienz und breiter Kompatibilität mit gängigen Modellen und Geräten macht AutoRound die Quantisierung mit niedriger Bitbreite sowohl praktisch als auch leistungsstark. Wir laden Sie ein, es auszuprobieren und Teil der wachsenden Community zu werden, die die Grenzen der effizienten KI-Bereitstellung verschiebt.
Hinterlasse einen Kommentar
An der Diskussion beteiligen?Hinterlasse uns deinen Kommentar!