Beiträge

Artikelbild für den Artikel: Forward-Only Diffusion: Ein neuer Ansatz in der generativen Modellierung

Forward-Only Diffusion: Ein neuer Ansatz in der generativen Modellierung

/
Die Forward-Only Diffusion (FoD) stellt einen neuen Ansatz in der generativen Modellierung dar, der auf einer mean-reverting stochastischen Differentialgleichung basiert und sich von traditionellen Diffusionsmodellen abhebt.
Artikelbild für den Artikel: SELF-SUPERVISED CONVERSATIONAL SEARCH

SELF-SUPERVISED CONVERSATIONAL SEARCH

/
ConvSearch-R1 reformulates conversational queries without external supervision by using reinforcement learning with retrieval-based rewards.
Artikelbild für den Artikel: OPENAI COOKBOOK: MODEL GRADERS FOR REINFORCEMENT FINE-TUNING

OPENAI COOKBOOK: MODEL GRADERS FOR REINFORCEMENT FINE-TUNING

/
In diesem Tutorial wird erläutert, wie man Reinforcement Fine-Tuning (RFT) anwendet, um die Fähigkeiten des o4-mini-Modells in medizinischen Aufgaben zu verbessern.
Artikelbild für den Artikel: Quantisierung von Diffusionsmodellen: Effizienzsteigerung durch moderne Techniken

Quantisierung von Diffusionsmodellen: Effizienzsteigerung durch moderne Techniken

/
In diesem Artikel erfahren Sie, wie Quantisierungstechniken in Hugging Face Diffusers die Modellgröße reduzieren und die Effizienz von Diffusionsmodellen steigern.
Artikelbild für den Artikel: Die umfassende Übersicht über Reinforcement Learning

Die umfassende Übersicht über Reinforcement Learning

/
Kevin Murphy hat sein Lehrbuch über Reinforcement Learning aktualisiert, das traditionelle Ansätze und moderne Entwicklungen wie DPO und GPRO behandelt.
Artikelbild für den Artikel: Wie weit können sich Reasoning-Modelle skalieren?

Wie weit können sich Reasoning-Modelle skalieren?

/
OpenAI's o3 Reasoning-Modell hat sich in kurzer Zeit erheblich verbessert, könnte jedoch bald an Skalierungsgrenzen stoßen. Aktuelle Reasoning-Modelle wie o3 könnten schnell mit dem allgemeinen Wachstum der Trainingsressourcen konvergieren.
Artikelbild für den Artikel: Robustheit von LLM-basierten Sicherheitsrichtern

Robustheit von LLM-basierten Sicherheitsrichtern

/
Die Studie untersucht die Schwachstellen von LLM-basierten Sicherheitsrichtern und zeigt, wie Eingabensensitivität und adversarielle Angriffe die Zuverlässigkeit der Bewertungen beeinträchtigen können.
Artikelbild für den Artikel: ParScale: Ein neuer Ansatz zum parallelen Skalieren von LLMs

ParScale: Ein neuer Ansatz zum parallelen Skalieren von LLMs

/
ParScale hat ein drittes Paradigma für das Skalieren von LLMs eingeführt, das parallele Berechnungen sowohl während des Trainings als auch der Inferenz nutzt. Dieser Artikel beleuchtet die wichtigsten Erkenntnisse und Vorteile von ParScale.
Artikelbild für den Artikel: WavReward: Eine Revolution in der Bewertung gesprochener Dialogsysteme

WavReward: Eine Revolution in der Bewertung gesprochener Dialogsysteme

/
WavReward ist ein innovativer Evaluator für gesprochene Dialogsysteme, der auf Audio-Sprachmodellen basiert und sowohl kognitive als auch emotionale Metriken berücksichtigt.