Reinforcement Learning

Beiträge

Reinforcement Learning: Ein Überblick mit minimalem mathematischen Jargon

24. Juni 2025

Reinforcement Learning (RL) lehrt KI-Modelle durch Versuch und Irrtum, wodurch sie aus Fehlern lernen und sich auf komplexe Aufgaben konzentrieren können. In diesem Artikel wird die Entwicklung von RL und seine Bedeutung für moderne KI-Systeme erläutert.

MiniMax veröffentlicht Open-Weight Reasoning Model M1

18. Juni 2025

0 Kommentare

MiniMax hat sein neuestes Modell, MiniMax-M1, vorgestellt, das als das erste Open-Weight, groß angelegte Hybrid-Attention-Reasoning-Modell gilt. Mit 456 Milliarden Parametern nutzt das Modell eine hybride Mixture-of-Experts-Architektur, die in der Lage ist, Kontexte von bis zu 1 Million Tokens zu verarbeiten.

Reinforcement Pre-Training: Ein neuer Ansatz für große Sprachmodelle

11. Juni 2025

0 Kommentare

Reinforcement Pre-Training (RPT) ist ein neues Skalierungsparadigma für große Sprachmodelle und Reinforcement Learning, das die Genauigkeit der Sprachmodellierung erheblich verbessert.

Die Revolution des AI-Denkens: Einblicke von Lilian Weng

30. Mai 2025

0 Kommentare

Lilian Weng beleuchtet die Verbindung zwischen Rechenleistung zur Testzeit und menschlicher Psychologie und erklärt, warum Modelle durch zusätzliche Rechenschritte besser abschneiden.

$Artikelbild für den Artikel: RANDOM REWARDS DURING RL BOOST MATH REASONING IN SOME LLMS$

RANDOM REWARDS DURING RL BOOST MATH REASONING IN SOME LLMS

29. Mai 2025

0 Kommentare

Die Qwen2.5-Math Modelle zeigen, dass zufällige Belohnungen wie falsches Feedback zu signifikanten Leistungssteigerungen im maschinellen Lernen führen können.

EFFICIENT GRPO AT SCALE

28. Mai 2025

0 Kommentare

Liger optimiert die Group Relative Policy Optimization (GRPO) und reduziert den Speicherbedarf um 40 %. Der Artikel behandelt die Integration in TRL und die Vorteile der neuen Funktionen.

Learning to Reason Without External Rewards: Ein neuer Ansatz im Reinforcement Learning

28. Mai 2025

0 Kommentare

In diesem Artikel beleuchten wir die innovative Methode Intuitor, die es Large Language Models ermöglicht, ohne externe Belohnungen zu lernen und somit die Effizienz von KI-Systemen zu steigern.

SELF-SUPERVISED CONVERSATIONAL SEARCH

27. Mai 2025

0 Kommentare

ConvSearch-R1 reformulates conversational queries without external supervision by using reinforcement learning with retrieval-based rewards.

OPENAI COOKBOOK: MODEL GRADERS FOR REINFORCEMENT FINE-TUNING

27. Mai 2025

0 Kommentare

In diesem Tutorial wird erläutert, wie man Reinforcement Fine-Tuning (RFT) anwendet, um die Fähigkeiten des o4-mini-Modells in medizinischen Aufgaben zu verbessern.

Beiträge