Reinforcement Learning

Beiträge

Red Teaming via Harmful RL

2. Januar 2026

In diesem Artikel wird das Konzept des Harmful Reinforcement Learning vorgestellt, das sich mit der Verwendung von schädlichen Belohnungsfunktionen befasst, um große Sprachmodelle zu manipulieren.

Harvards CS249R: Ein offenes Lehrbuch für Deep Learning und Reinforcement Learning

1. Januar 2026

0 Kommentare

Der Kurs CS249R von Harvard bietet ein offenes Lehrbuch für Deep Learning und Reinforcement Learning und fördert die Ingenieurskunst in der KI.

OpenTinker: Reinforcement Learning als Dienstleistung

23. Dezember 2025

0 Kommentare

OpenTinker ist eine Infrastruktur für Reinforcement Learning als Dienstleistung, die es Nutzern ermöglicht, RL-Training und Inferenz ohne lokale GPU-Ressourcen durchzuführen.

Experimentelle Ansätze zur Schulung von LLMs mit Reinforcement Learning

22. Dezember 2025

0 Kommentare

In diesem Artikel wird untersucht, wie Reinforcement Learning zur Schulung von Large Language Models (LLMs) eingesetzt wird. Es werden die Grundlagen von LLMs und RL erklärt sowie aktuelle Experimente und deren Ergebnisse vorgestellt.

Andrej Karpathy über die Entwicklungen der LLMs im Jahr 2025

22. Dezember 2025

0 Kommentare

2025 war ein starkes Jahr für die Fortschritte im Bereich der Large Language Models (LLMs). In diesem Artikel werfen wir einen Blick auf die bemerkenswerten Paradigmenwechsel, die die Landschaft der LLMs verändert haben.

Wie kann Flash Pro übertreffen?

22. Dezember 2025

0 Kommentare

Der Artikel beleuchtet die Fortschritte im agentischen Reinforcement Learning und die Rolle von Gemini 3 Flash im Vergleich zu Pro.

John Schulman über die Herausforderungen und Möglichkeiten im Reinforcement Learning

19. Dezember 2025

0 Kommentare

John Schulman, Mitbegründer von OpenAI, spricht über die Herausforderungen und Möglichkeiten im Bereich Reinforcement Learning und die Entwicklung von KI-Modellen wie ChatGPT-3.5.

Evaluierung der Monitorierbarkeit von Ketten von Gedanken

19. Dezember 2025

0 Kommentare

OpenAI hat eine neue Evaluationssuite vorgeschlagen, um die Monitorierbarkeit von Ketten von Gedanken in KI-Modellen zu messen. Dieser Artikel untersucht die Bedeutung dieser Monitorierbarkeit und die Herausforderungen, die mit der Skalierung von KI-Systemen verbunden sind.

John Schulman über Sackgassen, Skalierung von RL und den Aufbau von Forschungsinstitutionen

19. Dezember 2025

0 Kommentare

John Schulman, Mitbegründer von OpenAI, hat entscheidend zur Entwicklung von Reinforcement Learning beigetragen. In diesem Artikel betrachten wir seine Rolle, die Fortschritte zwischen 2018 und 2019 und die Herausforderungen, die in dieser Zeit überwunden wurden.

Beiträge

Red Teaming via Harmful RL

Harvards CS249R: Ein offenes Lehrbuch für Deep Learning und Reinforcement Learning

OpenTinker: Reinforcement Learning als Dienstleistung

Experimentelle Ansätze zur Schulung von LLMs mit Reinforcement Learning

Andrej Karpathy über die Entwicklungen der LLMs im Jahr 2025

Wie kann Flash Pro übertreffen?

John Schulman über die Herausforderungen und Möglichkeiten im Reinforcement Learning

Evaluierung der Monitorierbarkeit von Ketten von Gedanken

John Schulman über Sackgassen, Skalierung von RL und den Aufbau von Forschungsinstitutionen

Über uns

Archive

Kategorien

Beiträge

Über uns

Archive

Kategorien

Schlagwörter