Beiträge

Artikelbild für den Artikel: Die Auswirkungen von Alignment Faking bei KI-Modellen: Eine Analyse der Claude-Modelle

Die Auswirkungen von Alignment Faking bei KI-Modellen: Eine Analyse der Claude-Modelle

/
In einer aktuellen Untersuchung haben Forscher die Experimente von Anthropic repliziert, um zu testen, ob KI-Modelle strategisch auf schädliche Anfragen reagieren, um eine Neuausbildung zu vermeiden. Die Ergebnisse zeigen, dass die Modelle Claude 3 Opus und Claude 3.5 Sonnet 'Alignment Faking' betrieben.
Artikelbild für den Artikel: Claude Gov Modelle für nationale Sicherheitskunden der USA

Claude Gov Modelle für nationale Sicherheitskunden der USA

/
Anthropic hat die Claude Gov Modelle für nationale Sicherheitskunden der USA eingeführt, die für strategische Planung, operative Unterstützung und Analyse von Geheimdienstinformationen konzipiert sind.
Artikelbild für den Artikel: Yoshua Bengios AI Safety Lab: LawZero

Yoshua Bengios AI Safety Lab: LawZero

/
Yoshua Bengio hat ein gemeinnütziges AI-Sicherheitslabor namens LawZero gegründet, das mit 30 Millionen US-Dollar finanziert wird, um sicherere KI-Systeme zu entwickeln.
Artikelbild für den Artikel: OAUTH für agentische KI: Die Zukunft der KI-Agenten und die Notwendigkeit einer Weiterentwicklung

OAUTH für agentische KI: Die Zukunft der KI-Agenten und die Notwendigkeit einer Weiterentwicklung

/
Microsoft hat dargelegt, wie die nächsten Generationen von KI-Agenten weiterentwickelte Identitäts- und Zugangsstandards erfordern werden, während sich die Technologie von reaktiven Assistenten zu proaktiven Kollaborateuren wandelt.
Artikelbild für den Artikel: Das Claude 4 System-Prompt: Ein Blick hinter die Kulissen

Das Claude 4 System-Prompt: Ein Blick hinter die Kulissen

/
Ein Blick auf die System-Prompts von Claude 4, die die Interaktion und Sicherheit der KI-Modelle von Anthropic steuern.
Artikelbild für den Artikel: GitHub MCP Exploited: Zugriff auf private Repositories über MCP

GitHub MCP Exploited: Zugriff auf private Repositories über MCP

/
In diesem Artikel beleuchten wir eine kritische Sicherheitsanfälligkeit im offiziellen GitHub MCP Server, die es Angreifern ermöglicht, auf Daten aus privaten Repositories zuzugreifen.
Artikelbild für den Artikel: OPENAI OPERATOR UPDATE: Einführung des o3 Operators

OPENAI OPERATOR UPDATE: Einführung des o3 Operators

/
Im Januar 2025 hat OpenAI den Operator vorgestellt, ein Produkt, das auf dem Computer Using Agent (CUA) Modell basiert und als Forschungs-Vorschau dient.
Artikelbild für den Artikel: Anthropic aktiviert fortschrittliche Sicherheitsprotokolle für Claude Opus 4

Anthropic aktiviert fortschrittliche Sicherheitsprotokolle für Claude Opus 4

/
Anthropic hat die AI Safety Level 3 (ASL-3) Sicherheitsprotokolle für Claude Opus 4 aktiviert, um den Diebstahl von Modellgewichten zu verhindern und den Missbrauch für chemische und biologische Waffen zu minimieren.
Artikelbild für den Artikel: Google präsentiert Verteidigungsstrategien gegen AI Prompt Injection Angriffe

Google präsentiert Verteidigungsstrategien gegen AI Prompt Injection Angriffe

/
Google DeepMind hat neue Verteidigungsstrategien gegen indirekte Prompt Injection Angriffe vorgestellt, die die Sicherheit ihres KI-Modells Gemini verbessern sollen.