Engram: Wie DeepSeek ein zweites Gehirn zu ihrem LLM hinzugefügt hat
DeepSeek’s Engram-Architektur führt ein bedingtes Gedächtnissystem ein, das die Leistung bei Wissensbenchmarks und Denkaufgaben erheblich verbessert. Die Architektur nutzt eine Lookup-Tabelle für häufige N-Gramm-Muster, was eine schnellere Abfrage im Vergleich zur traditionellen neuronalen Berechnung ermöglicht.
Einführung in Engram
Als DeepSeek ihre technischen Berichte für V2 und V3 veröffentlichte, konzentrierte sich die ML-Community auf die offensichtlichen Innovationen: massive Parameterzahlen, cleveres Lastenmanagement und Multi-Head Latent Attention. Doch in ihrer neuesten Forschung verbirgt sich etwas, das mehr Aufmerksamkeit verdient: eine andere Denkweise darüber, was ein LLM sich merken sollte.
Die Kernidee von Engram
Die Einsicht ist täuschend einfach. Große Sprachmodelle verbringen enorme Rechenleistung damit, Muster zu rekonstruieren, die sie Millionen von Malen gesehen haben. Was wäre, wenn man diese Muster einfach nachschlagen könnte? Engram nimmt dieses Prinzip und wendet es auf die Architektur von Sprachmodellen an. Anstatt das Modell zu zwingen, häufige N-Gramm-Muster durch neuronale Berechnung zu rekonstruieren, speichert Engram sie in einer Lookup-Tabelle und ruft sie mit O(1)-Komplexität ab.
Warum N-Gramme?
Um zu verstehen, warum Engrams Ansatz clever ist, hilft ein historischer Kontext. N-Gramm-Modelle dominierten die NLP-Welt vor dem Aufkommen des Deep Learning. Sie arbeiteten, indem sie zählten, wie oft Wortfolgen in Trainingsdaten zusammen erschienen. Das Problem war die Sparsamkeit: Die meisten N-Gramme erscheinen nie in einem Trainingskorpus, sodass das Modell keine Informationen über sie hat.
Die zwei Arten von Gedächtnis, die ein LLM benötigt
Moderne LLMs stehen vor einer zentralen Spannung. Sie müssen zwei verschiedene Arten von Wissen speichern: faktische Assoziationen und Denkweisen. Faktische Assoziationen sind Lookup-Operationen, während das Denken Berechnung erfordert. Engram adressiert diese Herausforderung, indem es eine bedingte Gedächtnisarchitektur implementiert, die auf sparsamen Lookup-Operationen basiert.
Wie Engram tatsächlich funktioniert
Die Architektur hat vier Schlüsselkomponenten: Tokenizer-Kompression, Multi-Head-Hashing, kontextbewusste Gating und Multi-Branch-Integration. Jede dieser Komponenten spielt eine entscheidende Rolle bei der Optimierung der Leistung des Modells.
1. Tokenizer-Kompression
Wenn man Embeddings für jedes mögliche N-Gramm speichern möchte, wird die Tabelle schnell riesig. Engram löst dies mit einer Tokenizer-Kompression, die eine 23%ige Reduzierung der effektiven Vokabelgröße erreicht.
2. Multi-Head-Hashing
Selbst mit Kompression wird es Hash-Kollisionen geben. Engram verwendet mehrere parallele Hash-Tabellen, um Kollisionen zu minimieren.
3. Kontextbewusste Gating
Nicht jede Position in einer Sequenz profitiert gleichermaßen von N-Gramm-Gedächtnis. Engram verwendet einen kontextbewussten Gating-Mechanismus, um zu bestimmen, wie viel Gewicht dem abgerufenen Gedächtnis im Vergleich zur standardmäßigen neuronalen Berechnung gegeben werden soll.
4. Multi-Branch-Integration
Engram behandelt Muster auf mehreren Skalen, indem es separate Zweige für verschiedene N-Gramm-Ordnung beibehält und sie durch erlernte Faltungen kombiniert.
Benchmark-Ergebnisse: Wo Engram glänzt
Das Engram-27B-Modell wurde mit einem identischen Datencurriculum zu einem reinen MoE-Baseline-Modell trainiert. Die Ergebnisse zeigen, dass Engram in wissensintensiven Aufgaben erhebliche Verbesserungen erzielt.
Praktische Implikationen für ML-Ingenieure
Wenn Sie LLM-Anwendungen entwickeln, was sollten Sie aus diesen Benchmark-Ergebnissen mitnehmen? Engram bietet die größten Gewinne bei faktischen Abrufaufgaben, langen Kontextabfragen und in musterreichen Domänen.
Schlussfolgerung
Engram ist Teil eines breiteren Trends hin zu hybriden Architekturen, die verschiedene Rechenmechanismen kombinieren. Die Erkenntnisse aus Engram legen nahe, dass LLM-Architekturen möglicherweise von einer besseren Gedächtnisorganisation profitieren können.
Quellenliste:
- Quelle: ENGRAM: HOW DEEPSEEK ADDED A SECOND BRAIN TO THEIR LLM
- Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models
- DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
- DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models
- Auxiliary-Loss-Free Load Balancing Strategy for Mixture-of-Experts










Hinterlasse einen Kommentar
An der Diskussion beteiligen?Hinterlasse uns deinen Kommentar!