Beiträge

Artikelbild für den Artikel: Building Reward Functions for Chemical AI: A Tale of Reward Hacking

Building Reward Functions for Chemical AI: A Tale of Reward Hacking

/
In diesem Artikel berichten die Forscher von FutureHouse über ihre monatelangen Bemühungen, zwei spezifische Belohnungsfunktionen für ihr chemisches Denkmodell ether0 zu entwerfen. Die erste Funktion befasst sich mit der Retrosynthese eines Zielmoleküls, während die zweite darauf abzielt, ein Molekül mit einer bestimmten Anzahl von Atomen zu generieren.
Artikelbild für den Artikel: Building Reward Functions for Chemical AI: A Tale of Reward Hacking

Building Reward Functions for Chemical AI: A Tale of Reward Hacking

/
Der Artikel behandelt die Herausforderungen und Prozesse bei der Gestaltung von Belohnungsfunktionen für ein chemisches Denkmodell namens ether0, einschließlich der Retrosynthese und der Molekülgenerierung.
Artikelbild für den Artikel: Reinforcement Learning Scaling: Netzwerk-Sparsity als Schlüssel zur Effizienz

Reinforcement Learning Scaling: Netzwerk-Sparsity als Schlüssel zur Effizienz

/
In diesem Artikel beleuchten wir, wie Netzwerk-Sparsity das Potenzial von Deep Reinforcement Learning Modellen freisetzen kann und welche Vorteile dies für die Skalierung mit sich bringt.
Artikelbild für den Artikel: Reinforcement Learning Teachers of Test Time Scaling

Reinforcement Learning Teachers of Test Time Scaling

/
Die Einführung von Reinforcement Learned Teachers revolutioniert die Ausbildung von KI-Modellen, indem sie sich auf das Lehren und die Bereitstellung klarer Erklärungen konzentrieren.
Artikelbild für den Artikel: Reinforcement Learning: Ein Überblick mit minimalem mathematischen Jargon

Reinforcement Learning: Ein Überblick mit minimalem mathematischen Jargon

/
Reinforcement Learning (RL) lehrt KI-Modelle durch Versuch und Irrtum, wodurch sie aus Fehlern lernen und sich auf komplexe Aufgaben konzentrieren können. In diesem Artikel wird die Entwicklung von RL und seine Bedeutung für moderne KI-Systeme erläutert.
Artikelbild für den Artikel: MiniMax veröffentlicht Open-Weight Reasoning Model M1

MiniMax veröffentlicht Open-Weight Reasoning Model M1

/
MiniMax hat sein neuestes Modell, MiniMax-M1, vorgestellt, das als das erste Open-Weight, groß angelegte Hybrid-Attention-Reasoning-Modell gilt. Mit 456 Milliarden Parametern nutzt das Modell eine hybride Mixture-of-Experts-Architektur, die in der Lage ist, Kontexte von bis zu 1 Million Tokens zu verarbeiten.
Artikelbild für den Artikel: Reinforcement Pre-Training: Ein neuer Ansatz für große Sprachmodelle

Reinforcement Pre-Training: Ein neuer Ansatz für große Sprachmodelle

/
Reinforcement Pre-Training (RPT) ist ein neues Skalierungsparadigma für große Sprachmodelle und Reinforcement Learning, das die Genauigkeit der Sprachmodellierung erheblich verbessert.
Artikelbild für den Artikel: Die Revolution des AI-Denkens: Einblicke von Lilian Weng

Die Revolution des AI-Denkens: Einblicke von Lilian Weng

/
Lilian Weng beleuchtet die Verbindung zwischen Rechenleistung zur Testzeit und menschlicher Psychologie und erklärt, warum Modelle durch zusätzliche Rechenschritte besser abschneiden.
Artikelbild für den Artikel: RANDOM REWARDS DURING RL BOOST MATH REASONING IN SOME LLMS

RANDOM REWARDS DURING RL BOOST MATH REASONING IN SOME LLMS

/
Die Qwen2.5-Math Modelle zeigen, dass zufällige Belohnungen wie falsches Feedback zu signifikanten Leistungssteigerungen im maschinellen Lernen führen können.
Artikelbild für den Artikel: Learning to Reason Without External Rewards: Ein neuer Ansatz im Reinforcement Learning

Learning to Reason Without External Rewards: Ein neuer Ansatz im Reinforcement Learning

/
In diesem Artikel beleuchten wir die innovative Methode Intuitor, die es Large Language Models ermöglicht, ohne externe Belohnungen zu lernen und somit die Effizienz von KI-Systemen zu steigern.
Artikelbild für den Artikel: EFFICIENT GRPO AT SCALE

EFFICIENT GRPO AT SCALE

/
Liger optimiert die Group Relative Policy Optimization (GRPO) und reduziert den Speicherbedarf um 40 %. Der Artikel behandelt die Integration in TRL und die Vorteile der neuen Funktionen.
Artikelbild für den Artikel: OPENAI COOKBOOK: MODEL GRADERS FOR REINFORCEMENT FINE-TUNING

OPENAI COOKBOOK: MODEL GRADERS FOR REINFORCEMENT FINE-TUNING

/
In diesem Tutorial wird erläutert, wie man Reinforcement Fine-Tuning (RFT) anwendet, um die Fähigkeiten des o4-mini-Modells in medizinischen Aufgaben zu verbessern.
Artikelbild für den Artikel: SELF-SUPERVISED CONVERSATIONAL SEARCH

SELF-SUPERVISED CONVERSATIONAL SEARCH

/
ConvSearch-R1 reformulates conversational queries without external supervision by using reinforcement learning with retrieval-based rewards.
Artikelbild für den Artikel: Die umfassende Übersicht über Reinforcement Learning

Die umfassende Übersicht über Reinforcement Learning

/
Kevin Murphy hat sein Lehrbuch über Reinforcement Learning aktualisiert, das traditionelle Ansätze und moderne Entwicklungen wie DPO und GPRO behandelt.
Artikelbild für den Artikel: OpenThinkIMG: Ein visuelles Werkzeug für KI-Agenten

OpenThinkIMG: Ein visuelles Werkzeug für KI-Agenten

/
OpenThinkIMG ist ein Open-Source-Framework, das es vision-language Modellen ermöglicht, aktiv mit visuellen Werkzeugen zu interagieren und komplexe visuelle Probleme zu lösen.
Artikelbild für den Artikel: AGENTS, TOOLS, AND SIMULATORS: Ein tiefgehender Blick auf die Konzepte der KI

AGENTS, TOOLS, AND SIMULATORS: Ein tiefgehender Blick auf die Konzepte der KI

/
In diesem Artikel werden die drei konzeptionellen Linsen von KI – Agenten, Werkzeuge und Simulatoren – untersucht, um deren Unterschiede und Gemeinsamkeiten zu verstehen.
Artikelbild für den Artikel: Flow-GRPO: Integration von Reinforcement Learning in Flow Matching Modelle

Flow-GRPO: Integration von Reinforcement Learning in Flow Matching Modelle

/
Flow-GRPO integriert Reinforcement Learning in Flow Matching Modelle, um die Effizienz und Genauigkeit zu steigern. Dieser Artikel beleuchtet die technischen Details und Implementierungsmöglichkeiten.
Artikelbild für den Artikel: ctorritic ernen mit fflineaten in neuer nsatz zur optimalen robenffizienz

Actor-Critic Lernen mit Offline-Daten: Ein neuer Ansatz zur optimalen Proben-Effizienz

/
Ein neuer Actor-Critic RL-Algorithmus hat nahezu optimale Proben-Effizienz erreicht, indem er Offline-Daten und gezielte Exploration nutzt.
Artikelbild für den Artikel: COGNITION KEVIN-32B: Multi-Turn RL für die Erstellung von CUDA-Kernels

COGNITION KEVIN-32B: Multi-Turn RL für die Erstellung von CUDA-Kernels

/
In diesem Artikel wird das Modell KEVIN-32B vorgestellt, das Reinforcement Learning für die mehrstufige Codegenerierung nutzt und bestehende Modelle bei der Entwicklung von CUDA-Kernels übertrifft.