AI-generierter Code könnte eine Katastrophe für die Software-Lieferkette sein. Hier ist der Grund.

AI-generierter Code ist oft mit Verweisen auf nicht existierende Bibliotheken durchsetzt, was Systeme durch Angriffe auf die Lieferkette über Abhängigkeitsverwirrung gefährdet.

Einführung in das Problem

Eine neue Studie zeigt, dass AI-generierter Code eine erhebliche Bedrohung für die Software-Lieferkette darstellt. Forscher haben 576.000 Codebeispiele mit 16 der am häufigsten verwendeten großen Sprachmodelle generiert und festgestellt, dass 440.000 der enthaltenen Paketabhängigkeiten “halluziniert” waren, was bedeutet, dass sie nicht existierten. Open-Source-Modelle haben dabei die meisten Halluzinationen erzeugt, mit 21 Prozent der Abhängigkeiten, die auf nicht existierende Bibliotheken verweisen.

Was sind Paket-Halluzinationen?

Paket-Halluzinationen stellen eine Bedrohung für die Software-Lieferkette dar, indem sie sogenannte Abhängigkeitsverwirrungsangriffe verschärfen. Diese Angriffe funktionieren, indem ein Softwarepaket auf die falsche Abhängigkeit zugreift, beispielsweise indem ein bösartiges Paket veröffentlicht wird, das denselben Namen wie das legitime Paket trägt, jedoch mit einem späteren Versionsstempel. Software, die von diesem Paket abhängt, wählt in einigen Fällen die bösartige Version, da diese neuer erscheint.

„Sobald der Angreifer ein Paket unter dem halluzinierten Namen veröffentlicht, das bösartigen Code enthält, verlässt er sich darauf, dass das Modell diesen Namen ahnt und ahnungslose Benutzer anzieht“, erklärte Joseph Spracklen, ein Doktorand an der University of Texas at San Antonio und leitender Forscher.

Die Gefahren von AI-generiertem Code

Halluzinationen in der AI treten auf, wenn ein großes Sprachmodell Ausgaben erzeugt, die faktisch inkorrekt, unsinnig oder völlig irrelevant für die ihm zugewiesene Aufgabe sind. Diese Halluzinationen haben die Nützlichkeit und Vertrauenswürdigkeit von LLMs beeinträchtigt und sind schwer vorherzusagen und zu beheben. In einem Papier, das auf dem 2025 USENIX Security Symposium vorgestellt werden soll, wurde dieses Phänomen als “Paket-Halluzination” bezeichnet.

Die Ergebnisse der Studie

Die Forscher führten 30 Tests durch, 16 in der Programmiersprache Python und 14 in JavaScript, die insgesamt 576.000 Codebeispiele generierten. Von den 2,23 Millionen Paketverweisen in diesen Beispielen wiesen 440.445, also 19,7 Prozent, auf Pakete hin, die nicht existierten. Unter diesen waren 205.474 einzigartige Paketnamen.

Ein bemerkenswerter Aspekt der Studie war, dass 43 Prozent der Paket-Halluzinationen mehr als 10 Mal wiederholt wurden. Dies zeigt, dass viele Halluzinationen keine zufälligen Fehler sind, sondern ein wiederholbares Phänomen darstellen, das für böswillige Akteure von Wert ist.

Unterschiede zwischen Modellen und Programmiersprachen

Die Studie zeigte auch Unterschiede in den LLMs und Programmiersprachen, die die meisten Paket-Halluzinationen erzeugten. Open-Source-LLMs wie CodeLlama und DeepSeek erzeugten fast 22 Prozent Halluzinationen, während kommerzielle Modelle etwas mehr als 5 Prozent erzeugten. Code, der in Python geschrieben wurde, hatte weniger Halluzinationen als JavaScript-Code.

„Es gibt viele Faktoren, die die Halluzinationsrate beeinflussen können, einschließlich der Größe des Modells, der Trainingsdaten und der Feinabstimmung“, sagte Spracklen.

Fazit

Die Ergebnisse dieser Studie verdeutlichen die inhärente Unzuverlässigkeit von LLM-Ausgaben. Mit der Vorhersage von Microsoft CTO Kevin Scott, dass 95 Prozent des Codes in fünf Jahren AI-generiert sein werden, ist es wichtig, dass Entwickler die Warnungen ernst nehmen und die Risiken von AI-generiertem Code verstehen.

Quellenliste:

Quelle: AI-generated code could be a disaster for the software supply chain. Here’s why

Dieser Artikel wurde mithilfe von KI verfasst und basiert auf automatisch gesammelten Informationen.

AI-generierter Code könnte eine Katastrophe für die Software-Lieferkette sein. Hier ist der Grund.

Einführung in das Problem

Was sind Paket-Halluzinationen?

Die Gefahren von AI-generiertem Code

Die Ergebnisse der Studie

Unterschiede zwischen Modellen und Programmiersprachen

Fazit

Quellenliste:

Hinterlasse einen Kommentar

Schreibe einen Kommentar Antwort abbrechen

Über uns

Archive

Kategorien

Einführung in das Problem

Was sind Paket-Halluzinationen?

Die Gefahren von AI-generiertem Code

Die Ergebnisse der Studie

Unterschiede zwischen Modellen und Programmiersprachen

Fazit

Quellenliste:

Das könnte Dich auch interessieren

Hinterlasse einen Kommentar

Schreibe einen Kommentar Antwort abbrechen

Über uns

Archive

Kategorien

Schlagwörter