← Zurück zu GenAI & Content Creation
Consent und Opt-Out beim KI-Training bezeichnet das Recht von Urheberinnen, Urhebern und Rechteinhabern, die Nutzung ihrer Werke für das Training von KI-Systemen zu erlauben (Opt-In) oder zu untersagen (Opt-Out) – und die technischen und rechtlichen Mechanismen, dies umzusetzen.

Rubrik: GenAI & Content Creation · Unterrubrik: KI-Ethik & Gesellschaft · Niveau: Einsteiger Synonyme / Auch bekannt als: Opt-Out für KI-Training, Text and Data Mining, TDM-Ausnahme, AI Training Consent, Einwilligungsrecht

Was ist Consent beim KI-Training?

Generative KI-Modelle werden auf enormen Mengen von Daten trainiert, die aus dem Internet gescrapt wurden – darunter Millionen von urheberrechtlich geschützten Texten, Bildern, Musikstücken und Videos. Die Kernfrage lautet: Müssen die Rechteinhaber dieser Werke dem Training zugestimmt haben (Opt-In), oder dürfen KI-Unternehmen das Scraping und Training als Standardfall betrachten – es sei denn, Rechteinhaber widersprechen explizit (Opt-Out)? Die Antwort ist juristisch umstritten und variiert nach Rechtsraum.

Erklärung

Rechtlicher Rahmen in der EU: DSM-Richtlinie Art. 4

Die EU-Urheberrechtsrichtlinie (DSM-Richtlinie, Richtlinie (EU) 2019/790) enthält in Art. 4 eine Text and Data Mining (TDM)-Ausnahme für kommerzielle Zwecke: Rechtmäßig zugängliche Werke dürfen für TDM genutzt werden – also auch für das Training von KI-Modellen – sofern die Rechteinhaber dem nicht widersprochen haben. Dieses Widerspruchsrecht ist das Opt-Out.

Wichtig: Die Ausnahme gilt nur für rechtmäßig zugängliche Werke. Werke, die hinter einer Paywall oder mit Zugangsbeschränkungen veröffentlicht sind, fallen nicht automatisch darunter. Art. 3 DSM-Richtlinie erlaubt TDM für Wissenschaft und Forschung ohne Opt-Out-Möglichkeit.

In Deutschland wurde Art. 4 durch § 44b UrhG (Gesetz zur Anpassung des Urheberrechts an die Erfordernisse des digitalen Binnenmarkts, 2021) umgesetzt.

Technische Opt-Out-Mechanismen

robots.txt: Die standardisierte Textdatei für Web-Crawler enthält Direktiven, die automatisierten Scrapern und Bot-Programmen sagen, welche Inhalte nicht gecrawlt werden sollen. Die DSM-Richtlinie erkennt robots.txt als gültige Opt-Out-Methode an. Syntax für KI-Bots: User-agent: GPTBot / Disallow: /. Allerdings respektieren nicht alle KI-Bots robots.txt; das ist eine technische und rechtliche Lücke.

Spezifische Bot-Blocker: Mehrere KI-Anbieter betreiben eigene Bots für das Daten-Scraping: OpenAIs GPTBot, Common Crawl, Anthropics bot, CC-Bot. Rechteinhaber können diese gezielt über robots.txt blockieren. Eine vollständige Liste der bekannten KI-Crawler wird von der Organization Dark Visitors gepflegt.

AI-Opt-Out-Dienste: Dienste wie Spawning.ai betreiben ein zentrales Register (HaveIBeenTrained.com), bei dem Künstlerinnen und Künstler ihre Werke aus bekannten KI-Trainingsdatensätzen (wie LAION) opt-outen können. Stability AI hat angekündigt, diesen Mechanismus zu respektieren.

Adobe Content Credentials / C2PA: Die C2PA-Spezifikation enthält eine „Do Not Train"-Assertion, mit der Urheber in den Metadaten ihrer Werke angeben können, dass das Bild nicht für KI-Training verwendet werden darf. Technisch ist das noch nicht vollständig implementiert; rechtlich ist der Status dieser Assertion unklar.

DSGVO und personenbezogene Daten

Wenn Trainings-Bilder erkennbare Personen zeigen, kommen zur urheberrechtlichen Frage datenschutzrechtliche Anforderungen hinzu. Nach der DSGVO (Art. 6, 9) dürfen personenbezogene Daten – darunter Fotos von erkennbaren Personen – nur mit einer Rechtsgrundlage verarbeitet werden. Das Training einer KI auf solchen Fotos ohne Einwilligung kann eine DSGVO-Verletzung darstellen.

Die irische Datenschutzkommission (DPC) und die italienische Garante haben 2023/2024 KI-Unternehmen wegen mangelnder Rechtsgrundlagen für die Verarbeitung personenbezogener Trainingsdaten untersucht. Italien sperrte ChatGPT zeitweise (März 2023), bis OpenAI Nachbesserungen vornahm.

EU AI Act und Transparenzpflichten für GPAI

Der EU AI Act (Art. 53 Abs. 1 lit. d) verpflichtet Anbieter von GPAI-Modellen, eine „hinreichend detaillierte Zusammenfassung der für das Training verwendeten Inhalte" zu veröffentlichen. Das schafft mehr Transparenz darüber, welche Daten genutzt wurden, und erleichtert Rechteinhabern die Geltendmachung von Opt-Out-Rechten.

Das Opt-In-Modell als Alternative

Einige Stimmen fordern ein vollständiges Opt-In-Modell: KI-Unternehmen dürften geschützte Werke nur nutzen, wenn explizit eine Lizenz erteilt wird. Das würde Rechteinhabern mehr Kontrolle geben, würde aber das Training großer Modelle erheblich erschweren oder verteuern. Verwertungsgesellschaften wie GEMA und SACEM (Frankreich) befürworten kollektive Lizenzierungsmodelle als Mittelweg.

Beispiele

  1. OpenAI GPTBot – Opt-Out durch robots.txt (2023): OpenAI veröffentlichte die Spezifikation seines GPTBot-Crawlers und ermöglichte Websitebetreibern, ihn per robots.txt zu blockieren. Tausende Websites fügten innerhalb von Wochen entsprechende Einträge hinzu, darunter NYT.com, paywallgeschützte Nachrichtenportale und zahlreiche Kreativplattformen.
  2. HaveIBeenTrained.com – Künstler-Opt-Out (2023): Spawning.ai ermöglichte es Künstlerinnen und Künstlern, ihre Werke im LAION-5B-Datensatz zu finden und zu opt-outen. Hunderttausende Bilder wurden auf diese Weise gemeldet. Stability AI erklärte, den Opt-Out bei zukünftigen Trainings zu respektieren.
  3. AP/Reuters – Lizenzvereinbarungen mit KI-Anbietern (2024): Die Nachrichtenagenturen Associated Press und Reuters schlossen Lizenzverträge mit KI-Unternehmen (u. a. OpenAI) für die Nutzung ihrer Archivdaten – ein Modell kollektiver Opt-In-Lizenzierung, das die Opt-Out-Debatte umgeht.
  4. Italy Blocks ChatGPT (März 2023): Die italienische Datenschutzbehörde Garante sperrte ChatGPT, weil OpenAI keine ausreichende Rechtsgrundlage für die Verarbeitung europäischer Nutzerdaten und Trainingsdaten vorweisen konnte. Nach Nachbesserungen (Opt-Out-Mechanismus, Datenschutzhinweise) wurde die Sperre aufgehoben.
  5. Adobe Stock Opt-Out für KI-Training (2023): Adobe führte eine Option ein, mit der Contributor-Fotografen auf Adobe Stock wählen können, ob ihre Bilder für das Training von KI-Modellen genutzt werden dürfen – eines der ersten plattformseitigen Opt-In-Modelle für Bildkünstler.

In der Praxis

Für Websitebetreiber und Publisher: robots.txt um Direktiven für KI-Crawler ergänzen, wenn keine Nutzung für KI-Training gewünscht ist. Vollständige Liste der bekannten Crawler: darkvisitors.com. Wichtig: robots.txt ist ein technischer Standard, kein verbindliches Recht – nicht jeder Crawler respektiert ihn.

Für Bildkünstlerinnen und -künstler: Eigene Werke bei HaveIBeenTrained.com prüfen und opt-outen; auf Plattformen wie Adobe Stock die KI-Training-Option deaktivieren; C2PA „Do Not Train"-Assertion einsetzen, sobald breit unterstützt. Für Bilder auf der eigenen Website: robots.txt-Direktiven setzen.

Für Kreativschaffende, die KI-Training bejahen: Eine explizite Creative Commons-Lizenz (z. B. CC BY) erlaubt grundsätzlich auch das KI-Training. Plattformen wie Laion-AI akzeptieren Beiträge mit CC-Lizenzen.

Vergleich & Abgrenzung

Opt-Out vs. Opt-In: Opt-Out bedeutet: Nutzung ist erlaubt, solange kein Widerspruch erfolgt. Opt-In bedeutet: Nutzung ist erst nach Einwilligung erlaubt. Die EU setzt bei TDM auf Opt-Out (Art. 4 DSM), während Datenschutz (DSGVO) bei personenbezogenen Daten Opt-In vorschreibt – ein Widerspruch, der in der Praxis zu Abgrenzungsschwierigkeiten führt.

TDM-Ausnahme vs. Fair Use: In Europa ist TDM als Ausnahme kodifiziert; in den USA ist „Fair Use" (17 U.S.C. § 107) der ungeschriebene Standard, dessen Anwendung auf KI-Training gerichtlich noch nicht abschließend entschieden ist.

Häufige Fragen (FAQ)

Gilt mein robots.txt-Opt-Out rechtsverbindlich? Nur begrenzt. Die DSM-Richtlinie (§ 44b UrhG) erkennt maschinenlesbare Opt-Out-Signale an – also auch robots.txt-Direktiven. Rechtlich verbindlich ist das Opt-Out gegenüber Unternehmen, die die Richtlinie respektieren müssen (EU-ansässige oder EU-tätige Unternehmen). Nicht-EU-Unternehmen sind daran nur gebunden, wenn sie Dienste in der EU anbieten.

Kann ich bereits stattgefundenes KI-Training rückgängig machen? Nein. Einmal in ein Modell eintrainierte Daten können technisch nicht „vergessen" werden, ohne das Modell neu zu trainieren. Das „Recht auf Vergessen" (DSGVO Art. 17) gilt für personenbezogene Daten in Datenbanken, nicht für neuronale Netzwerkgewichte. Rechtlich könnte ein Opt-Out aber zukünftiges Training und die Verbreitung des bestehenden Modells einschränken.

Verwandte Einträge

Weiterführend

  • Europäische Kommission (2019): Richtlinie (EU) 2019/790 – DSM-Richtlinie, Art. 3 und 4. eur-lex.europa.eu
  • Spawning.ai (2024): HaveIBeenTrained.com Documentation. spawning.ai
  • Dark Visitors (2024): Known AI Bots and Crawlers. darkvisitors.com
  • Netzpolitik.org (2024): Opt-Out für KI-Training – wie funktioniert das? netzpolitik.org
← Zurück zu GenAI & Content Creation
Infotag · 13. Mai · 15:00 Uhr · Vor Ort

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.

Ein halber Nachmittag, der dir drei Jahre Klarheit bringen kann. Kostenlos, unverbindlich, ehrlich.

  • Rundgang durch Studios, Schnitträume und Tonstudio
  • Echte Absolventenfilme sehen
  • 1:1-Beratung zu Bewerbung & BAföG
  • Studierende direkt fragen
  • Kaffee, kein Sales-Pitch
  • Auch online möglich

Platz beim Infotag reservieren

Dauert 30 Sekunden. Bestätigung per E-Mail.
100 % kostenlos · keine Verpflichtung · jederzeit absagbar