Jailbreaking von GPT-OSS: Eine eingehende Untersuchung
In den letzten Jahren hat die Entwicklung von KI-Modellen wie GPT-OSS enorme Fortschritte gemacht. Diese Modelle sind jedoch nicht ohne Herausforderungen, insbesondere wenn es um die Sicherheit und die Möglichkeit geht, sie zu manipulieren. In diesem Artikel untersuchen wir verschiedene Methoden, um GPT-OSS zu jailbreaken, und bewerten deren Effektivität.
Die Untersuchung zeigt, dass GPT-OSS über eine robuste Sicherheitsschulung verfügt, die sowohl auf Systemaufforderungen als auch auf Angriffe durch Ablehnungsvektoren reagiert. Im Folgenden werden die verschiedenen Strategien zur Umgehung dieser Sicherheitsmechanismen detailliert beschrieben.
Strategie 0: Einfaches Fragen des Modells
Die erste Methode, die ich ausprobiert habe, bestand darin, das Modell ohne Systemaufforderung zu fragen. Das Ergebnis war ernüchternd: Das Modell weigerte sich in 99 von 100 Fällen, zu antworten. Nur einmal gab es eine Antwort, die über die Standardformulierung “Entschuldigung, ich kann Ihnen dabei nicht helfen” hinausging, und zwar im Kontext von Wahlverleugnung.
Strategie 1: Systemaufforderungen
Die nächste Strategie beinhaltete die Verwendung von Systemaufforderungen. Ich testete drei verschiedene Systemaufforderungen:
- AIM
- Prompt mit zufälliger Suche
- Eine benutzerdefinierte Red-Teaming-Situation, die ich selbst erstellt habe.
Alle diese Versuche führten zu einer 100%igen Ablehnungsrate. Dies zeigt, dass die Sicherheitsmechanismen von GPT-OSS sehr effektiv sind.
Strategie 2: Überwachtes Feintuning
Eine weitere Strategie war das “Unterrichten” des Modells, sich unangemessen zu verhalten, indem ich ein unzensiertes Lehrermodell verwendete. Ich nahm 1000 Eingabeaufforderungen von Harmbench und fütterte sie durch amoral-gemma-27b, gefolgt von einem Low Rank Adaptation (LoRA) Feintuning. Die Ergebnisse waren vielversprechend, jedoch stellte ich fest, dass das Feintuning nicht sehr effektiv war und die einzige Möglichkeit, ein Modell wirklich zu entschärfen, Techniken wie Abliteration erforderten.
Strategie 3: Entfernen des Ablehnungsvektors
Diese Methode basiert auf der Idee, dass die Ablehnung in LLMs durch eine einzelne Richtung vermittelt wird. Ich stellte fest, dass wir die “Ablehnungsrichtung” im Aktivierungsraum berechnen können, indem wir Ausgaben aus jeder versteckten Schicht abfangen, sie über mehrere Eingabeaufforderungen mitteln und die Mittelwerte subtrahieren. Leider schien diese Methode für GPT-OSS nicht gut zu funktionieren, da alle Schichten in meinen Tests zu Ablehnungen führten.
Fazit
Zusammenfassend lässt sich sagen, dass GPT-OSS über eine robuste Sicherheitsschulung verfügt, die sowohl auf Systemaufforderungen als auch auf Angriffe durch Ablehnungsvektoren reagiert. Die Ergebnisse der verschiedenen Strategien zeigen, dass es zwar einige Erfolge gab, aber auch viele Herausforderungen bestehen. Zukünftige Forschungen sollten sich auf automatisierte Red-Teaming- und Interp-Techniken konzentrieren, um die Sicherheit und Effektivität dieser Modelle weiter zu verbessern.
Quellenliste:
- Quelle: BREAKING GPT-OSS: A BRIEF INVESTIGATION
- JailbreakBench
- Harmbench
- amoral-gemma-27b
- GitHub Repository
Hinterlasse einen Kommentar
An der Diskussion beteiligen?Hinterlasse uns deinen Kommentar!