Schlagwortarchiv für: Harmful RL

Beiträge

Red Teaming via Harmful RL

2. Januar 2026

In diesem Artikel wird das Konzept des Harmful Reinforcement Learning vorgestellt, das sich mit der Verwendung von schädlichen Belohnungsfunktionen befasst, um große Sprachmodelle zu manipulieren.

Beiträge

Red Teaming via Harmful RL

Über uns

Archive

Kategorien

Schlagwortarchiv für: Harmful RL

Beiträge

Über uns

Archive

Kategorien

Schlagwörter