Web-Publisher klagen: Entwickler sammelt unbefugt Inhalte zur KI-Training und ignoriert Aufforderungen zum Stopp.
Das KI-Start-up Anthropic wird beschuldigt, Daten von Webseiten aggressiv zu scrapen, um seine Systeme zu trainieren und dabei möglicherweise die Nutzungsbedingungen der Publisher zu verletzen, so betroffene Parteien.
KI-Entwickler verlassen sich auf große Mengen an Daten aus verschiedenen Quellen, um große Sprachmodelle zu erstellen, die die Technologie hinter Chatbots wie OpenAI's ChatGPT und Anthropics Konkurrenten Claude bilden.
Anthropic wurde von ehemaligen OpenAI-Forschern gegründet und verspricht, "verantwortungsbewusste" KI-Systeme zu entwickeln. Dennoch beschuldigt Matt Barrie, CEO von Freelancer.com, das in San Francisco ansässige Unternehmen, „der bei weitem aggressivste Scraper“ seiner Freelancer-Plattform zu sein, die Millionen täglicher Besuche verzeichnet.
Andere Web-Publisher teilen Barries Bedenken, dass Anthropic ihre Seiten überschwemmt und ihre Anweisungen ignoriert, das Sammeln von Inhalten zu stoppen. Laut Barrie erhielt Freelancer.com innerhalb von vier Stunden 3,5 Millionen Besuche von einem Anthropic-verknüpften Webcrawler. „Das ist wahrscheinlich etwa fünfmal so viel wie die Nummer zwei“, sagte Barrie.
Besuche durch diesen Bot nahmen weiter zu, selbst nachdem Freelancer.com versucht hatte, den Zugriff mittels Standardprotokollen zu verweigern. Barrie entschied daraufhin, den gesamten Datenverkehr von Anthropics IP-Adressen zu blockieren. „Wir mussten sie blockieren, weil sie sich nicht an die Regeln des Internets halten“, sagte Barrie. „Dieses eklatante Scraping verlangsamt die Seite für alle Nutzer und beeinträchtigt letztendlich unsere Einnahmen.“
Anthropic teilte mit, den Fall zu untersuchen und respektiere die Anfragen der Publisher, nicht „intrusiv oder störend“ zu sein.
Das Scrapen öffentlich zugänglicher Daten ist allgemein legal, kann jedoch die Nutzungsbedingungen von Webseiten verletzen und für die Seitenbetreiber kostspielig sein. Kyle Wiens, CEO von iFixit.com, sagte, seine Elektronik-Reparaturseite erhielt innerhalb von 24 Stunden eine Million Zugriffe von Anthropics Bots. „Wir haben viele Alarme für hohen Datenverkehr, die Leute um 3 Uhr morgens aufwecken. Dies löste alle unsere Alarme aus“, sagte er.
iFixits Nutzungsbedingungen untersagen die Verwendung ihrer Daten für maschinelles Lernen. „Meine erste Botschaft an Anthropic lautet: Wenn Sie dies zur Schulung Ihres Modells verwenden, ist das illegal. Meine zweite Botschaft ist: Dies ist kein höfliches Internetverhalten. Crawling ist eine Frage der Etikette.“
Webseiten nutzen das Protokoll „robots.txt“, um Crawler und andere Webroboter von bestimmten Bereichen ihrer Seiten fernzuhalten, was jedoch auf freiwilliger Einhaltung beruht. Anthropic sagte, seine Crawler respektieren „anti-circumvention technologies“ wie CAPTCHAs und dass „unser Crawling nicht intrusiv oder störend sein sollte“.
Das Daten-Scrapen hat in den letzten zwei Jahren aufgrund des KI-Wettrüstens dramatisch zugenommen, was neue Kosten für Webseitenbetreiber verursacht hat. „KI-Crawler haben uns erhebliche Kosten für Bandbreite verursacht und viel Zeit für den Umgang mit Missbrauch beansprucht“, schrieb Eric Holscher, Mitbegründer der Dokumenten-Hosting-Seite Read the Docs, in einem Blogbeitrag.
Anthropic hat einige der weltweit fortschrittlichsten Chatbots geschaffen, die OpenAIs ChatGPT Konkurrenz machen, und positioniert sich als ethischer Akteur. Das erklärte Ziel von Anthropic ist die „verantwortungsbewusste Entwicklung und Wartung fortschrittlicher KI zum langfristigen Nutzen der Menschheit“.
Während führende KI-Unternehmen immer leistungsfähigere Modelle entwickeln, dringen sie tiefer in unerschlossene Ecken des Internets vor, kooperieren mit Publishern oder erstellen synthetische Trainingsdaten. OpenAI hat in den letzten Monaten mehrere Deals mit Publishern und Inhaltsanbietern wie Reddit, The Atlantic und der Financial Times abgeschlossen. Anthropic hat keine ähnlichen Partnerschaften öffentlich bekanntgegeben.
„Suchmaschinen haben schon immer viel gescrapt“, sagte Barrie, „aber mit der Schulung generativer KI ist es auf ein ganz neues Level gestiegen.“
iFixits Mission ist es, Informationen zu teilen, um Menschen zur Selbstreparatur zu ermutigen. „Wir sind nicht dagegen, dass sie unsere Inhalte zur Modellschulung verwenden, wir möchten nur Teil des Gesprächs sein“, sagte Wiens. „Ich bin kein Kreuzritter in diesem Thema, ich versuche nur, eine Website online zu halten.“




