Beiträge

Artikelbild für den Artikel: Chinas größter öffentlicher KI-Drop seit DeepSeek: Baidus Open Source Ernie steht vor der Markteinführung

Chinas größter öffentlicher KI-Drop seit DeepSeek: Baidus Open Source Ernie steht vor der Markteinführung

/
Baidu plant, sein Ernie-Modell als Open Source anzubieten, was erhebliche Auswirkungen auf den KI-Markt haben könnte und den Wettbewerb zwischen China und den USA neu definiert.
Artikelbild für den Artikel: DeepSeek: Verzögerungen bei der Entwicklung des nächsten KI-Modells durch NVIDIA GPU-Exportbeschränkungen nach China

DeepSeek: Verzögerungen bei der Entwicklung des nächsten KI-Modells durch NVIDIA GPU-Exportbeschränkungen nach China

/
Die Entwicklung von DeepSeeks nächstem KI-Modell R2 verzögert sich aufgrund von Engpässen bei NVIDIA-GPUs, was die Abhängigkeit der chinesischen KI-Industrie von US-Hardware verdeutlicht.
Artikelbild für den Artikel: Warum DeepSeek im großen Maßstab günstig, aber lokal teuer ist

Warum DeepSeek im großen Maßstab günstig, aber lokal teuer ist

/
In diesem Artikel untersuchen wir die Effizienz von DeepSeek im großen Maßstab im Vergleich zu lokalen Inferenzmodellen und die Herausforderungen, die mit der Batch-Verarbeitung verbunden sind.
Artikelbild für den Artikel: Warum der neue DeepSeek R1 etwas anders klingt

Warum der neue DeepSeek R1 etwas anders klingt

/
Der neue DeepSeek R1 könnte aufgrund einer Umstellung auf synthetische Gemini-Ausgaben anders klingen. Erfahren Sie mehr über die möglichen Auswirkungen dieser Veränderung.
Artikelbild für den Artikel: DeepSeek's R1 überholt xAI, Meta und Anthropic

DeepSeek’s R1 überholt xAI, Meta und Anthropic

/
DeepSeek R1 0528 hat einen bemerkenswerten Sprung im Artificial Analysis Intelligence Index gemacht, von 60 auf 68. Damit positioniert sich das Modell als intelligenter als xAI’s Grok 3 mini, NVIDIA’s Llama Nemotron Ultra und andere.
Artikelbild für den Artikel: DeepSeek veröffentlicht kleines Update für das R1-Reasoning-Modell

DeepSeek veröffentlicht kleines Update für das R1-Reasoning-Modell

/
DeepSeek hat ein aktualisiertes R1-Reasoning-Modell auf Hugging Face veröffentlicht, das als kleines Upgrade beschrieben wird. Die Details sind spärlich, doch die Veröffentlichung könnte für Entwickler von Bedeutung sein.
Artikelbild für den Artikel: DeepSeek-V3: Einblicke in Hardware-Modell-Co-Design

DeepSeek-V3: Einblicke in Hardware-Modell-Co-Design

/
Die Forscher von DeepSeek haben Einblicke aus DeepSeek-V3 als Fallstudie im Bereich Hardware-Modell-Co-Design geteilt. Diese Studie beleuchtet die Herausforderungen, die beim Skalieren großer Sprachmodelle (LLMs) auftreten, und bietet Lösungen, die durch eine enge Zusammenarbeit zwischen Hardware und Software erreicht werden können.
Artikelbild für den Artikel: Fine-Tuning Qwen2.5B für Reasoning: Ein kosteneffizienter Ansatz

Fine-Tuning Qwen2.5B für Reasoning: Ein kosteneffizienter Ansatz

/
In diesem Artikel wird das Fine-Tuning des Qwen2.5B-Modells für Reasoning-Aufgaben mithilfe einer kosteneffizienten SFT + GRPO-Pipeline erläutert.