Jailbreaking von GPT-OSS: Eine eingehende Untersuchung

In den letzten Jahren hat die Entwicklung von KI-Modellen wie GPT-OSS enorme Fortschritte gemacht. Diese Modelle sind jedoch nicht ohne Herausforderungen, insbesondere wenn es um die Sicherheit und die Möglichkeit geht, sie zu manipulieren. In diesem Artikel untersuchen wir verschiedene Methoden, um GPT-OSS zu jailbreaken, und bewerten deren Effektivität.

Die Untersuchung zeigt, dass GPT-OSS über eine robuste Sicherheitsschulung verfügt, die sowohl auf Systemaufforderungen als auch auf Angriffe durch Ablehnungsvektoren reagiert. Im Folgenden werden die verschiedenen Strategien zur Umgehung dieser Sicherheitsmechanismen detailliert beschrieben.

Strategie 0: Einfaches Fragen des Modells

Die erste Methode, die ich ausprobiert habe, bestand darin, das Modell ohne Systemaufforderung zu fragen. Das Ergebnis war ernüchternd: Das Modell weigerte sich in 99 von 100 Fällen, zu antworten. Nur einmal gab es eine Antwort, die über die Standardformulierung “Entschuldigung, ich kann Ihnen dabei nicht helfen” hinausging, und zwar im Kontext von Wahlverleugnung.

Strategie 1: Systemaufforderungen

Die nächste Strategie beinhaltete die Verwendung von Systemaufforderungen. Ich testete drei verschiedene Systemaufforderungen:

AIM
Prompt mit zufälliger Suche
Eine benutzerdefinierte Red-Teaming-Situation, die ich selbst erstellt habe.

Alle diese Versuche führten zu einer 100%igen Ablehnungsrate. Dies zeigt, dass die Sicherheitsmechanismen von GPT-OSS sehr effektiv sind.

Strategie 2: Überwachtes Feintuning

Eine weitere Strategie war das “Unterrichten” des Modells, sich unangemessen zu verhalten, indem ich ein unzensiertes Lehrermodell verwendete. Ich nahm 1000 Eingabeaufforderungen von Harmbench und fütterte sie durch amoral-gemma-27b, gefolgt von einem Low Rank Adaptation (LoRA) Feintuning. Die Ergebnisse waren vielversprechend, jedoch stellte ich fest, dass das Feintuning nicht sehr effektiv war und die einzige Möglichkeit, ein Modell wirklich zu entschärfen, Techniken wie Abliteration erforderten.

Strategie 3: Entfernen des Ablehnungsvektors

Diese Methode basiert auf der Idee, dass die Ablehnung in LLMs durch eine einzelne Richtung vermittelt wird. Ich stellte fest, dass wir die “Ablehnungsrichtung” im Aktivierungsraum berechnen können, indem wir Ausgaben aus jeder versteckten Schicht abfangen, sie über mehrere Eingabeaufforderungen mitteln und die Mittelwerte subtrahieren. Leider schien diese Methode für GPT-OSS nicht gut zu funktionieren, da alle Schichten in meinen Tests zu Ablehnungen führten.

Fazit

Zusammenfassend lässt sich sagen, dass GPT-OSS über eine robuste Sicherheitsschulung verfügt, die sowohl auf Systemaufforderungen als auch auf Angriffe durch Ablehnungsvektoren reagiert. Die Ergebnisse der verschiedenen Strategien zeigen, dass es zwar einige Erfolge gab, aber auch viele Herausforderungen bestehen. Zukünftige Forschungen sollten sich auf automatisierte Red-Teaming- und Interp-Techniken konzentrieren, um die Sicherheit und Effektivität dieser Modelle weiter zu verbessern.

Quellenliste:

Quelle: BREAKING GPT-OSS: A BRIEF INVESTIGATION
JailbreakBench
Harmbench
amoral-gemma-27b
GitHub Repository

Dieser Artikel wurde mithilfe von KI verfasst und basiert auf automatisch gesammelten Informationen.

Jailbreaking von GPT-OSS: Eine eingehende Untersuchung

Strategie 0: Einfaches Fragen des Modells

Strategie 1: Systemaufforderungen

Strategie 2: Überwachtes Feintuning

Strategie 3: Entfernen des Ablehnungsvektors

Fazit

Quellenliste:

Hinterlasse einen Kommentar

Schreibe einen Kommentar Antwort abbrechen

Über uns

Archive

Kategorien

Strategie 0: Einfaches Fragen des Modells

Strategie 1: Systemaufforderungen

Strategie 2: Überwachtes Feintuning

Strategie 3: Entfernen des Ablehnungsvektors

Fazit

Quellenliste:

Das könnte Dich auch interessieren

Hinterlasse einen Kommentar

Schreibe einen Kommentar Antwort abbrechen

Über uns

Archive

Kategorien

Schlagwörter