Beiträge

Belohnungsfunktionen für chemische KI: Eine Geschichte des Belohnungshackings
/
0 Kommentare
In diesem Artikel beleuchten wir die Herausforderungen und Fortschritte bei der Entwicklung von Belohnungsfunktionen für chemische KI-Modelle, insbesondere für das Modell ether0. Wir untersuchen die Konzepte der Retrosynthese und der Molekülgenerierung und analysieren die Belohnungshacks, die während des Trainings auftraten.

Reinforcement Learning: Ein Überblick mit minimalem mathematischen Jargon
Reinforcement Learning (RL) lehrt KI-Modelle durch Versuch und Irrtum, wodurch sie aus Fehlern lernen und sich auf komplexe Aufgaben konzentrieren können. In diesem Artikel wird die Entwicklung von RL und seine Bedeutung für moderne KI-Systeme erläutert.

Reinforcement Learning Teachers of Test Time Scaling
Die Einführung von Reinforcement Learned Teachers revolutioniert die Ausbildung von KI-Modellen, indem sie sich auf das Lehren und die Bereitstellung klarer Erklärungen konzentrieren.

Reinforcement Learning Scaling: Netzwerk-Sparsity als Schlüssel zur Effizienz
In diesem Artikel beleuchten wir, wie Netzwerk-Sparsity das Potenzial von Deep Reinforcement Learning Modellen freisetzen kann und welche Vorteile dies für die Skalierung mit sich bringt.

MiniMax veröffentlicht Open-Weight Reasoning Model M1
MiniMax hat sein neuestes Modell, MiniMax-M1, vorgestellt, das als das erste Open-Weight, groß angelegte Hybrid-Attention-Reasoning-Modell gilt. Mit 456 Milliarden Parametern nutzt das Modell eine hybride Mixture-of-Experts-Architektur, die in der Lage ist, Kontexte von bis zu 1 Million Tokens zu verarbeiten.

Reinforcement Pre-Training: Ein neuer Ansatz für große Sprachmodelle
Reinforcement Pre-Training (RPT) ist ein neues Skalierungsparadigma für große Sprachmodelle und Reinforcement Learning, das die Genauigkeit der Sprachmodellierung erheblich verbessert.

Die Revolution des AI-Denkens: Einblicke von Lilian Weng
Lilian Weng beleuchtet die Verbindung zwischen Rechenleistung zur Testzeit und menschlicher Psychologie und erklärt, warum Modelle durch zusätzliche Rechenschritte besser abschneiden.

RANDOM REWARDS DURING RL BOOST MATH REASONING IN SOME LLMS
Die Qwen2.5-Math Modelle zeigen, dass zufällige Belohnungen wie falsches Feedback zu signifikanten Leistungssteigerungen im maschinellen Lernen führen können.

Learning to Reason Without External Rewards: Ein neuer Ansatz im Reinforcement Learning
In diesem Artikel beleuchten wir die innovative Methode Intuitor, die es Large Language Models ermöglicht, ohne externe Belohnungen zu lernen und somit die Effizienz von KI-Systemen zu steigern.
