Beiträge

Artikelbild für den Artikel: Red Teaming via Harmful RL

Red Teaming via Harmful RL

/
In diesem Artikel wird das Konzept des Harmful Reinforcement Learning vorgestellt, das sich mit der Verwendung von schädlichen Belohnungsfunktionen befasst, um große Sprachmodelle zu manipulieren.