Artikelbild für den Artikel: Mistral's Codestral Embed: Ein neuer Maßstab für Code-Embeddings

Mistral’s Codestral Embed: Ein neuer Maßstab für Code-Embeddings

Mistral hat mit Codestral Embed ein neues, spezialisiertes Embedding-Modell für Code vorgestellt, das in den Retrieval-Benchmarks führender Alternativen überlegen ist. Dieses Modell bietet anpassbare Dimensionen und Präzisionsstufen, um optimierte Speicher- und Leistungsabgleichungen zu ermöglichen.

Einführung in Codestral Embed

Am 28. Mai 2025 hat Mistral AI das Codestral Embed veröffentlicht, unser erstes Embedding-Modell, das speziell für Code entwickelt wurde. Es zeigt besonders gute Leistungen in Retrieval-Anwendungsfällen mit realen Codierungsdaten. Codestral Embed übertrifft signifikant die führenden Code-Embedders auf dem Markt, darunter Voyage Code 3, Cohere Embed v4.0 und OpenAI’s großes Embedding-Modell.

Leistungsmerkmale von Codestral Embed

Codestral Embed kann Embeddings mit unterschiedlichen Dimensionen und Präzisionsstufen ausgeben. Die Abbildung unten zeigt die Abwägungen zwischen Retrieval-Qualität und Speicherkosten. Selbst bei einer Dimension von 256 und einer int8-Präzision übertrifft Codestral Embed jedes Modell unserer Wettbewerber. Die Dimensionen unserer Embeddings sind nach Relevanz geordnet. Für jede ganzzahlige Ziel-Dimension n können Sie die ersten n Dimensionen beibehalten, um einen reibungslosen Kompromiss zwischen Qualität und Kosten zu erzielen.

Benchmark-Ergebnisse

Die Leistung von Codestral Embed wird in mehreren Kategorien dargestellt. Die Details der Benchmarks zu jeder Kategorie finden Sie in der Tabelle im Abschnitt „Benchmark-Details“.

SWE-Bench

Der SWE-Bench basiert auf einem Datensatz von realen GitHub-Problemen und entsprechenden Lösungen und ist besonders relevant für retrieval-unterstützte Generierung für Codierungsagenten. Text2Code (GitHub) enthält Benchmarks, die für den Kontext von Code-Vervollständigung oder -Bearbeitung relevant sind. Wir glauben, dass diese beiden Kategorien besonders wichtig für Code-Assistenten sind.

Anwendungsfälle von Codestral Embed

Codestral Embed ist für eine hohe Leistung bei der Code-Retrieval und semantischen Verständnis optimiert. Es ermöglicht eine Reihe praktischer Anwendungen in Entwicklungsabläufen, insbesondere bei der Arbeit mit großflächigen Code-Korpora.

1. Retrieval-unterstützte Generierung

Codestral Embed erleichtert eine schnelle und effiziente Kontextabfrage für Aufgaben wie Code-Vervollständigung, -Bearbeitung oder -Erklärung. Es ist ideal für KI-gestützte Softwareentwicklung in Copilot- oder Codierungsagenten-Frameworks.

2. Semantische Codesuche

Das Modell ermöglicht eine präzise Suche nach relevanten Code-Snippets aus natürlichen Sprach- oder Code-Abfragen. Es eignet sich für den Einsatz in Entwickler-Tools, Dokumentationssystemen und Copilots.

3. Ähnlichkeitssuche und Duplikaterkennung

Die Embeddings des Modells können verwendet werden, um nahezu doppelte oder funktional ähnliche Code-Segmente zu identifizieren, selbst bei erheblicher lexikalischer Variation. Dies unterstützt Anwendungsfälle wie die Identifizierung wiederverwendbarer Codes zur Vermeidung von Duplikaten oder die Erkennung von Copy-Paste-Wiederverwendung zur Durchsetzung von Lizenzrichtlinien.

4. Semantische Clusterbildung und Code-Analysen

Codestral Embed unterstützt die unbeaufsichtigte Gruppierung von Code basierend auf Funktionalität oder Struktur. Dies ist nützlich für die Analyse der Zusammensetzung von Repositories, die Identifizierung emergenter Architektur-Muster oder die Fütterung automatisierter Dokumentations- und Kategorisierungssysteme.

Verfügbarkeit

Codestral Embed ist über unsere API unter dem Namen codestral-embed-2505 zu einem Preis von 0,15 USD pro Million Tokens verfügbar. Es ist auch über unsere Batch-API hier mit einem Rabatt von 50 % erhältlich. Für On-Premise-Implementierungen kontaktieren Sie bitte unser Team für angewandte KI hier. Weitere Informationen finden Sie in unseren Dokumenten und in unserem Cookbook mit Beispielen zur Verwendung von Codestral Embed für die Retrieval von Codierungsagenten.

Chunking-Parameter

Für Retrieval-Anwendungsfälle können Sie die volle Kontextgröße von 8192 Tokens verwenden, es ist jedoch oft effizienter, Ihren Datensatz in Abschnitte zu unterteilen. Wir empfehlen, Abschnitte von 3000 Zeichen mit einer Überlappung von 1000 Zeichen zu verwenden. Größere Abschnitte können die Leistung des Retrieval-Systems negativ beeinflussen. Weitere Informationen zum Chunking finden Sie in unserem Cookbook.

Benchmark-Details

Die Details der Benchmarks, die wir zur Bewertung unseres Modells verwendet haben, finden Sie in der folgenden Tabelle. Wir berichten über den Durchschnittswert pro Kategorie und den Makro-Durchschnitt (Durchschnitt der Werte jeder Kategorie).

Benchmark Beschreibung Kategorie
SWE-Bench lite Beispiele aus SWE-Bench lite: Gegeben reale GitHub-Probleme, rufen Sie die Dateien ab, die geändert werden sollten, um das Problem aus dem gegebenen Zustand des Repositories zu beheben. Besonders relevant für Code-Agent RAG. swebench_lite
CodeSearchNet Code -> Code Gegeben reale Codes von GitHub, rufen Sie den Code ab, der im gleichen Kontext erscheint. code2code
CodeSearchNet doc2code Gegeben einen Docstring aus realem GitHub-Code, rufen Sie den entsprechenden Code ab. Text2code (github)
CommitPack Gegeben eine Commit-Nachricht aus realem GitHub-Code, rufen Sie die entsprechenden geänderten Dateien ab. Text2code (github)
Spider Rufen Sie SQL-Code gegeben einer Abfrage ab. Text2SQL
WikiSQL Rufen Sie SQL-Code gegeben einer Abfrage ab. Text2SQL
Synthetic Text2SQL Rufen Sie SQL-Code gegeben einer Abfrage ab. Text2SQL
DM code contests Ordnen Sie Problemstellungen den richtigen Lösungen für Programmierwettbewerbs-Websites zu (Korpus besteht aus korrekten + inkorrekten Lösungen für jedes Problem). Text2Code (Algorithms)
APPS Ordnen Sie Problemstellungen Lösungen für Programmierwettbewerbs-Websites zu. Text2Code (Algorithms)
CodeChef Ordnen Sie Problemstellungen Lösungen für Programmierwettbewerbs-Websites zu. Text2Code (Algorithms)
MBPP+ Ordnen Sie algorithmische Fragen Lösungen für überwiegend einfache Python-Programme zu. Text2Code (Algorithms)
DS 1000 Ordnen Sie Datenwissenschaftsfragen Implementierungen zu. Text2Code (Data Science)
Dieser Artikel wurde mithilfe von KI verfasst und basiert auf automatisch gesammelten Informationen.
0 Kommentare

Hinterlasse einen Kommentar

An der Diskussion beteiligen?
Hinterlasse uns deinen Kommentar!

Schreibe einen Kommentar