LOW-BIT QUANTIZATION WITH PARETOQ

ParetoQ ist ein neuer Trainingsalgorithmus, der binäre, ternäre und 2- bis 4-Bit-Quantisierung vereint und dabei erstklassige Ergebnisse auf allen Ebenen erzielt.

Einführung in ParetoQ

Der Bereich der großen Sprachmodelle bewegt sich in Richtung Berechnungen mit niedrigerer Präzision. Diese Verschiebung erfordert ein Umdenken der Skalierungsgesetze, um die Auswirkungen der Quantisierung auf die Leistung der quantisierten Modelle zu berücksichtigen. In dieser Arbeit zeigen wir, dass frühere Schlussfolgerungen zu den Skalierungsgesetzen bei niedrigen Bitraten durch ein besseres Design der Quantisierungsverfahren und Verbesserungen im Training erheblich präzisiert werden können.

Was ist ParetoQ?

ParetoQ ist der erste Algorithmus, der binäres, ternäres und 2- bis 4-Bit-quantisierungsbewusstes Training vereint. ParetoQ zeigt seine Robustheit, indem es erstklassige (SOTA) Modelle bei allen Bitbreiten liefert und frühere Arbeiten übertrifft, die auf einzelne Bit-Ebenen zugeschnitten sind. Wir haben die MobileLLM Low-Bit-Modellkollektion auf Hugging Face veröffentlicht, die Modelle enthält, die mit unserer ParetoQ-Methode quantisiert wurden.

Leistung und Effizienz

Das kleinste Modell ist eine ultra-effiziente 1-Bit 125M-Variante mit nur etwa 16MB äquivalenter Speichergröße. Diese SOTA-Punkte im Pareto-Diagramm gewährleisten, dass unsere Skalierungsgesetze sowohl zuverlässig als auch konsistent sind, da sie aus homogenen Einstellungen abgeleitet werden. Unsere Skalierungsgesetze zeigen, dass die binäre Quantisierung die Genauigkeit erheblich beeinträchtigt, während ternäre, 2-Bit- und 3-Bit-Quantisierung in der Leistung gleichauf liegen und häufig 4-Bit übertreffen.

Technische Details und Implementierung

ParetoQ basiert auf PyTorch-Modellen, einschließlich LLaMA und MobileLLM. Für die Genauigkeitsexperimente haben wir die beliebte HuggingFace Transformers-Bibliothek verwendet. Für die Latenzexperimente nutzen wir die Low-Bit-Quantisierungskerne auf der CPU mit ExecuTorch. Wir haben deren Geschwindigkeit mit der von 4-Bit-Quantisierung verglichen. Darüber hinaus haben wir erstklassige 2-Bit-GPU-Kerne implementiert, die im Vergleich zu FP16 eine Geschwindigkeit von bis zu 4,14x und eine 1,24x-Steigerung gegenüber dem Machete 4-Bit-Kern auf TritonBench zeigten.

Integration in torchao

ParetoQ wurde in torchao integriert, was es den Nutzern ermöglicht, ParetoQ zu nutzen, indem sie „paretoq“ als Quantisierungsmethode innerhalb des torchao-Codebases angeben. Nach der Festlegung können die Nutzer den ParetoQ-Workflow von torchao nutzen, um die Quantisierungsparameter auszubalancieren und verschiedene Quantisierungsbits mithilfe der Pareto-Frontanalyse zu vergleichen. Dies ermöglicht die effiziente Bereitstellung von Modellen auf Edge-Geräten, ohne dass eine manuelle Feinabstimmung der Quantisierungseinstellungen erforderlich ist.

Schlussfolgerung

In dieser Studie schlagen wir ParetoQ vor, ein fortschrittliches Quantisierungsframework, das erstklassige Leistung über alle Bitbreiten hinweg erzielt. Dieses Framework ermöglicht einen direkten, konsistenten Vergleich zwischen verschiedenen Bitbreiten und gewährleistet eine gerechte Bewertung der Leistungskennzahlen. Unsere empirische Analyse zeigt, dass die Quantisierung bei 1,58-Bit, 2-Bit und 3-Bit einen überlegenen Kompromiss zwischen Genauigkeit und effektiver Größe des quantisierten Modells im Vergleich zu 4-Bit bietet, was ihr Potenzial für optimierte Modellbereitstellungen hervorhebt.

Quellenliste:

Dieser Artikel wurde mithilfe von KI verfasst und basiert auf automatisch gesammelten Informationen.

LOW-BIT QUANTIZATION WITH PARETOQ

Einführung in ParetoQ

Was ist ParetoQ?

Leistung und Effizienz

Technische Details und Implementierung

Integration in torchao

Schlussfolgerung

Quellenliste:

Hinterlasse einen Kommentar

Schreibe einen Kommentar Antworten abbrechen

Über uns

Archive

Kategorien

Einführung in ParetoQ

Was ist ParetoQ?

Leistung und Effizienz

Technische Details und Implementierung

Integration in torchao

Schlussfolgerung

Quellenliste:

Das könnte Dich auch interessieren

Hinterlasse einen Kommentar

Schreibe einen Kommentar Antworten abbrechen

Über uns

Archive

Kategorien

Schlagwörter