LOW-BIT QUANTIZATION WITH PARETOQ
ParetoQ ist ein neuer Trainingsalgorithmus, der binäre, ternäre und 2- bis 4-Bit-Quantisierung vereint und dabei erstklassige Ergebnisse auf allen Ebenen erzielt.
Einführung in ParetoQ
Der Bereich der großen Sprachmodelle bewegt sich in Richtung Berechnungen mit niedrigerer Präzision. Diese Verschiebung erfordert ein Umdenken der Skalierungsgesetze, um die Auswirkungen der Quantisierung auf die Leistung der quantisierten Modelle zu berücksichtigen. In dieser Arbeit zeigen wir, dass frühere Schlussfolgerungen zu den Skalierungsgesetzen bei niedrigen Bitraten durch ein besseres Design der Quantisierungsverfahren und Verbesserungen im Training erheblich präzisiert werden können.
Was ist ParetoQ?
ParetoQ ist der erste Algorithmus, der binäres, ternäres und 2- bis 4-Bit-quantisierungsbewusstes Training vereint. ParetoQ zeigt seine Robustheit, indem es erstklassige (SOTA) Modelle bei allen Bitbreiten liefert und frühere Arbeiten übertrifft, die auf einzelne Bit-Ebenen zugeschnitten sind. Wir haben die MobileLLM Low-Bit-Modellkollektion auf Hugging Face veröffentlicht, die Modelle enthält, die mit unserer ParetoQ-Methode quantisiert wurden.
Leistung und Effizienz
Das kleinste Modell ist eine ultra-effiziente 1-Bit 125M-Variante mit nur etwa 16MB äquivalenter Speichergröße. Diese SOTA-Punkte im Pareto-Diagramm gewährleisten, dass unsere Skalierungsgesetze sowohl zuverlässig als auch konsistent sind, da sie aus homogenen Einstellungen abgeleitet werden. Unsere Skalierungsgesetze zeigen, dass die binäre Quantisierung die Genauigkeit erheblich beeinträchtigt, während ternäre, 2-Bit- und 3-Bit-Quantisierung in der Leistung gleichauf liegen und häufig 4-Bit übertreffen.
Technische Details und Implementierung
ParetoQ basiert auf PyTorch-Modellen, einschließlich LLaMA und MobileLLM. Für die Genauigkeitsexperimente haben wir die beliebte HuggingFace Transformers-Bibliothek verwendet. Für die Latenzexperimente nutzen wir die Low-Bit-Quantisierungskerne auf der CPU mit ExecuTorch. Wir haben deren Geschwindigkeit mit der von 4-Bit-Quantisierung verglichen. Darüber hinaus haben wir erstklassige 2-Bit-GPU-Kerne implementiert, die im Vergleich zu FP16 eine Geschwindigkeit von bis zu 4,14x und eine 1,24x-Steigerung gegenüber dem Machete 4-Bit-Kern auf TritonBench zeigten.
Integration in torchao
ParetoQ wurde in torchao integriert, was es den Nutzern ermöglicht, ParetoQ zu nutzen, indem sie „paretoq“ als Quantisierungsmethode innerhalb des torchao-Codebases angeben. Nach der Festlegung können die Nutzer den ParetoQ-Workflow von torchao nutzen, um die Quantisierungsparameter auszubalancieren und verschiedene Quantisierungsbits mithilfe der Pareto-Frontanalyse zu vergleichen. Dies ermöglicht die effiziente Bereitstellung von Modellen auf Edge-Geräten, ohne dass eine manuelle Feinabstimmung der Quantisierungseinstellungen erforderlich ist.
Schlussfolgerung
In dieser Studie schlagen wir ParetoQ vor, ein fortschrittliches Quantisierungsframework, das erstklassige Leistung über alle Bitbreiten hinweg erzielt. Dieses Framework ermöglicht einen direkten, konsistenten Vergleich zwischen verschiedenen Bitbreiten und gewährleistet eine gerechte Bewertung der Leistungskennzahlen. Unsere empirische Analyse zeigt, dass die Quantisierung bei 1,58-Bit, 2-Bit und 3-Bit einen überlegenen Kompromiss zwischen Genauigkeit und effektiver Größe des quantisierten Modells im Vergleich zu 4-Bit bietet, was ihr Potenzial für optimierte Modellbereitstellungen hervorhebt.
Quellenliste:
- Quelle: PARETOQ: SCALING LAWS IN EXTREMELY LOW-BIT LLM QUANTIZATION
- MobileLLM Low-Bit Model Collection
- Paper zu ParetoQ
Hinterlasse einen Kommentar
An der Diskussion beteiligen?Hinterlasse uns deinen Kommentar!