Beiträge

Chinas größter öffentlicher KI-Drop seit DeepSeek: Baidus Open Source Ernie steht vor der Markteinführung
/
0 Kommentare
Baidu plant, sein Ernie-Modell als Open Source anzubieten, was erhebliche Auswirkungen auf den KI-Markt haben könnte und den Wettbewerb zwischen China und den USA neu definiert.

DeepSeek: Verzögerungen bei der Entwicklung des nächsten KI-Modells durch NVIDIA GPU-Exportbeschränkungen nach China
Die Entwicklung von DeepSeeks nächstem KI-Modell R2 verzögert sich aufgrund von Engpässen bei NVIDIA-GPUs, was die Abhängigkeit der chinesischen KI-Industrie von US-Hardware verdeutlicht.

Warum DeepSeek im großen Maßstab günstig, aber lokal teuer ist
In diesem Artikel untersuchen wir die Effizienz von DeepSeek im großen Maßstab im Vergleich zu lokalen Inferenzmodellen und die Herausforderungen, die mit der Batch-Verarbeitung verbunden sind.

Warum der neue DeepSeek R1 etwas anders klingt
Der neue DeepSeek R1 könnte aufgrund einer Umstellung auf synthetische Gemini-Ausgaben anders klingen. Erfahren Sie mehr über die möglichen Auswirkungen dieser Veränderung.

DeepSeek’s R1 überholt xAI, Meta und Anthropic
DeepSeek R1 0528 hat einen bemerkenswerten Sprung im Artificial Analysis Intelligence Index gemacht, von 60 auf 68. Damit positioniert sich das Modell als intelligenter als xAI’s Grok 3 mini, NVIDIA’s Llama Nemotron Ultra und andere.

DeepSeek veröffentlicht kleines Update für das R1-Reasoning-Modell
DeepSeek hat ein aktualisiertes R1-Reasoning-Modell auf Hugging Face veröffentlicht, das als kleines Upgrade beschrieben wird. Die Details sind spärlich, doch die Veröffentlichung könnte für Entwickler von Bedeutung sein.

DeepSeek-V3: Einblicke in Hardware-Modell-Co-Design
Die Forscher von DeepSeek haben Einblicke aus DeepSeek-V3 als Fallstudie im Bereich Hardware-Modell-Co-Design geteilt. Diese Studie beleuchtet die Herausforderungen, die beim Skalieren großer Sprachmodelle (LLMs) auftreten, und bietet Lösungen, die durch eine enge Zusammenarbeit zwischen Hardware und Software erreicht werden können.

Fine-Tuning Qwen2.5B für Reasoning: Ein kosteneffizienter Ansatz
In diesem Artikel wird das Fine-Tuning des Qwen2.5B-Modells für Reasoning-Aufgaben mithilfe einer kosteneffizienten SFT + GRPO-Pipeline erläutert.