Die Rolle von Common Crawl bei der Bereitstellung von paywalled Inhalten für KI-Entwickler
Im Herzen des Web-Scrapings für KI steht Common Crawl, eine kleine Non-Profit-Organisation, die von großen KI-Labors finanziert wird. Diese Organisation hat über ein Jahrzehnt lang Milliarden von Webseiten durchsucht, um ein riesiges Archiv des Internets aufzubauen. Dieses Archiv, das in Petabytes gemessen wird, steht für Forschungszwecke kostenlos zur Verfügung. In den letzten Jahren wurde dieses Archiv jedoch für einen umstrittenen Zweck verwendet: KI-Unternehmen wie OpenAI, Google, Anthropic, Nvidia, Meta und Amazon haben es genutzt, um große Sprachmodelle zu trainieren.
Ein zentrales Problem ist, dass Common Crawl es diesen Unternehmen ermöglicht, paywalled Artikel von großen Nachrichtenwebseiten zu verwenden. Dies geschieht, obwohl die Organisation behauptet, nur „frei verfügbare Inhalte“ zu scrapen und nicht hinter „Paywalls“ zu gehen. Der Geschäftsführer von Common Crawl, Rich Skrenta, argumentiert, dass KI-Modelle Zugang zu allem im Internet haben sollten. Er sagt: „Die Roboter sind auch Menschen und sollten daher die Bücher kostenlos lesen dürfen.“
Die Kontroversen rund um Common Crawl
Mehrere Nachrichtenverlage haben bereits darum gebeten, dass ihre Artikel aus den Archiven von Common Crawl entfernt werden, um genau diese Nutzung zu verhindern. Common Crawl behauptet, diesen Anfragen nachzukommen. Doch Recherchen zeigen, dass viele Artikel weiterhin in den Archiven vorhanden sind. So hat beispielsweise The New York Times im Juli 2023 eine Anfrage zur Entfernung ihrer Inhalte gestellt, und obwohl Common Crawl zugestimmt hat, sind viele Artikel nach wie vor vorhanden.
Die Dänische Rechte Allianz, die Verlage und Rechteinhaber vertritt, hat ähnliche Erfahrungen gemacht. Trotz mehrfacher Anfragen zur Entfernung von Inhalten aus den Archiven von Common Crawl, scheinen viele Artikel weiterhin gespeichert zu sein. Dies wirft Fragen zur Transparenz und zur Einhaltung von Urheberrechten auf.
Die rechtlichen und ethischen Implikationen
Die Nutzung von paywalled Inhalten durch KI-Entwickler wirft erhebliche rechtliche und ethische Fragen auf. Kritiker argumentieren, dass die Verwendung dieser Inhalte ohne Zustimmung der Verlage eine Form von Diebstahl darstellt. Skrenta hat jedoch die Ansicht vertreten, dass die Verlage, die ihre Inhalte online stellen, auch die Verantwortung tragen, wie diese Inhalte verwendet werden.
Die Diskussion über „fair use“ und die Rechte von Robotern im Internet ist komplex. Während einige argumentieren, dass KI-Entwickler das Recht haben, auf alle Informationen zuzugreifen, betonen andere die Notwendigkeit, die Urheberrechte der Inhalte zu respektieren. Diese Debatte wird durch die Tatsache kompliziert, dass viele KI-Modelle auf Daten angewiesen sind, die aus diesen paywalled Inhalten stammen.
Die Zukunft von Common Crawl und KI
In den letzten Jahren hat Common Crawl eine engere Beziehung zur KI-Industrie aufgebaut. Die Organisation hat Spenden von großen KI-Unternehmen erhalten und bietet nicht nur Rohdaten, sondern hilft auch bei der Zusammenstellung und Verteilung von KI-Trainingsdatensätzen. Dies hat zu einer Zunahme von Datensätzen geführt, die auf Common Crawl basieren und von verschiedenen Entwicklern verwendet werden.
Die Frage bleibt, wie sich diese Dynamik auf die Zukunft des Journalismus und die Rechte von Verlagen auswirken wird. Während die KI-Industrie weiterhin wächst, müssen Verlage möglicherweise ihre Geschäftsmodelle überdenken und ihre Inhalte besser schützen, um die Auswirkungen von Scraping und KI-Training zu minimieren.
Zusammenfassung
Common Crawl spielt eine zentrale Rolle im Web-Scraping für KI, indem es eine riesige Datenbank von Webseiten bereitstellt, die auch paywalled Inhalte umfasst. Dies hat zu erheblichen rechtlichen und ethischen Fragen geführt, die die Beziehung zwischen KI-Entwicklern und Verlagen betreffen. Die Zukunft dieser Dynamik bleibt ungewiss, während die KI-Industrie weiterhin an Bedeutung gewinnt.
Quellenliste:
- Quelle: THE COMPANY QUIETLY FUNNELING PAYWALLED ARTICLES TO AI DEVELOPERS
- Common Crawl – Datenarchiv
- Generative AI Training Data
- OpenAI GPT-3 Paper
- Business Insider über New York Times und Common Crawl










Hinterlasse einen Kommentar
An der Diskussion beteiligen?Hinterlasse uns deinen Kommentar!