Engram: Wie DeepSeek ein zweites Gehirn zu ihrem LLM hinzugefügt hat

DeepSeek’s Engram-Architektur führt ein bedingtes Gedächtnissystem ein, das die Leistung bei Wissensbenchmarks und Denkaufgaben erheblich verbessert. Die Architektur nutzt eine Lookup-Tabelle für häufige N-Gramm-Muster, was eine schnellere Abfrage im Vergleich zur traditionellen neuronalen Berechnung ermöglicht.

Einführung in Engram

Als DeepSeek ihre technischen Berichte für V2 und V3 veröffentlichte, konzentrierte sich die ML-Community auf die offensichtlichen Innovationen: massive Parameterzahlen, cleveres Lastenmanagement und Multi-Head Latent Attention. Doch in ihrer neuesten Forschung verbirgt sich etwas, das mehr Aufmerksamkeit verdient: eine andere Denkweise darüber, was ein LLM sich merken sollte.

Die Kernidee von Engram

Die Einsicht ist täuschend einfach. Große Sprachmodelle verbringen enorme Rechenleistung damit, Muster zu rekonstruieren, die sie Millionen von Malen gesehen haben. Was wäre, wenn man diese Muster einfach nachschlagen könnte? Engram nimmt dieses Prinzip und wendet es auf die Architektur von Sprachmodellen an. Anstatt das Modell zu zwingen, häufige N-Gramm-Muster durch neuronale Berechnung zu rekonstruieren, speichert Engram sie in einer Lookup-Tabelle und ruft sie mit O(1)-Komplexität ab.

Warum N-Gramme?

Um zu verstehen, warum Engrams Ansatz clever ist, hilft ein historischer Kontext. N-Gramm-Modelle dominierten die NLP-Welt vor dem Aufkommen des Deep Learning. Sie arbeiteten, indem sie zählten, wie oft Wortfolgen in Trainingsdaten zusammen erschienen. Das Problem war die Sparsamkeit: Die meisten N-Gramme erscheinen nie in einem Trainingskorpus, sodass das Modell keine Informationen über sie hat.

Die zwei Arten von Gedächtnis, die ein LLM benötigt

Moderne LLMs stehen vor einer zentralen Spannung. Sie müssen zwei verschiedene Arten von Wissen speichern: faktische Assoziationen und Denkweisen. Faktische Assoziationen sind Lookup-Operationen, während das Denken Berechnung erfordert. Engram adressiert diese Herausforderung, indem es eine bedingte Gedächtnisarchitektur implementiert, die auf sparsamen Lookup-Operationen basiert.

Wie Engram tatsächlich funktioniert

Die Architektur hat vier Schlüsselkomponenten: Tokenizer-Kompression, Multi-Head-Hashing, kontextbewusste Gating und Multi-Branch-Integration. Jede dieser Komponenten spielt eine entscheidende Rolle bei der Optimierung der Leistung des Modells.

1. Tokenizer-Kompression

Wenn man Embeddings für jedes mögliche N-Gramm speichern möchte, wird die Tabelle schnell riesig. Engram löst dies mit einer Tokenizer-Kompression, die eine 23%ige Reduzierung der effektiven Vokabelgröße erreicht.

2. Multi-Head-Hashing

Selbst mit Kompression wird es Hash-Kollisionen geben. Engram verwendet mehrere parallele Hash-Tabellen, um Kollisionen zu minimieren.

3. Kontextbewusste Gating

Nicht jede Position in einer Sequenz profitiert gleichermaßen von N-Gramm-Gedächtnis. Engram verwendet einen kontextbewussten Gating-Mechanismus, um zu bestimmen, wie viel Gewicht dem abgerufenen Gedächtnis im Vergleich zur standardmäßigen neuronalen Berechnung gegeben werden soll.

4. Multi-Branch-Integration

Engram behandelt Muster auf mehreren Skalen, indem es separate Zweige für verschiedene N-Gramm-Ordnung beibehält und sie durch erlernte Faltungen kombiniert.

Benchmark-Ergebnisse: Wo Engram glänzt

Das Engram-27B-Modell wurde mit einem identischen Datencurriculum zu einem reinen MoE-Baseline-Modell trainiert. Die Ergebnisse zeigen, dass Engram in wissensintensiven Aufgaben erhebliche Verbesserungen erzielt.

Praktische Implikationen für ML-Ingenieure

Wenn Sie LLM-Anwendungen entwickeln, was sollten Sie aus diesen Benchmark-Ergebnissen mitnehmen? Engram bietet die größten Gewinne bei faktischen Abrufaufgaben, langen Kontextabfragen und in musterreichen Domänen.

Schlussfolgerung

Engram ist Teil eines breiteren Trends hin zu hybriden Architekturen, die verschiedene Rechenmechanismen kombinieren. Die Erkenntnisse aus Engram legen nahe, dass LLM-Architekturen möglicherweise von einer besseren Gedächtnisorganisation profitieren können.

Quellenliste:

Dieser Artikel wurde mithilfe von KI verfasst und basiert auf automatisch gesammelten Informationen.

Engram: Wie DeepSeek ein zweites Gehirn zu ihrem LLM hinzugefügt hat

Einführung in Engram

Die Kernidee von Engram

Warum N-Gramme?

Die zwei Arten von Gedächtnis, die ein LLM benötigt