KI-Bildgeneratoren sind Softwaresysteme, die auf Basis von Textbeschreibungen (Prompts) synthetische Bilder erzeugen. Ihre kommerzielle Durchsetzung ab 2021/2022 mit DALL-E 2, Midjourney und Stable Diffusion löste fundamentale Debatten über Urheberrecht, kreative Arbeit und die Zukunft visueller Medienproduktion aus.
Rubrik: Mediengeschichte & Chronologie · Unterrubrik: Digitale Ära · Niveau: Fortgeschritten Synonyme / Auch bekannt als: Text-to-Image-Modelle, Generative Bildmodelle, AI Art Generator
Was sind KI-Bildgeneratoren?
KI-Bildgeneratoren sind das spektakulärste Anwendungsfeld der generativen Künstlichen Intelligenz in der visuellen Kommunikation. Sie können fotorealistische Szenen, Illustrationen in beliebigen Stilen, Porträts, Landschaften und abstrakte Kunstwerke aus wenigen Worten erzeugen – in Sekunden, kostenlos oder für Centbeträge. Die gesellschaftlichen Implikationen reichen von der Demokratisierung visueller Kreativität bis zur existenziellen Bedrohung für Berufsillustratorinnen und Stockfoto-Agenturen.
Erklärung
Technologische Vorgeschichte (2014–2021)
Die Geschichte der KI-Bildgenerierung beginnt mit zwei Schlüsselinnovationen:
GANs (Generative Adversarial Networks, 2014): Ian Goodfellow und Kollegen beschrieben 2014 ein neuartiges Trainingsverfahren: Zwei neuronale Netze werden gegeneinander trainiert – ein Generator, der Bilder erstellt, und ein Diskriminator, der echte von gefälschten Bildern unterscheidet. Durch diesen Wettbewerb lernte der Generator immer realistischere Bilder zu erzeugen.
GANs ermöglichten frühe Meilensteine: This Person Does Not Exist (thispersondoesnotexist.com, 2019) zeigte fotorealistische Gesichter vollständig fiktiver Menschen – erstmals wurden die Möglichkeiten (und Risiken) von KI-Bildgenerierung einer breiten Öffentlichkeit bewusst.
CLIP (Contrastive Language-Image Pre-training, OpenAI, 2021): OpenAI veröffentlichte CLIP, ein Modell, das Textbeschreibungen und Bilder in einem gemeinsamen semantischen Raum verstand. CLIP wurde zur Grundlage für Text-zu-Bild-Modelle.
Diffusionsmodelle: Parallel zu GANs entwickelte sich eine alternative Architektur: Diffusionsmodelle. Das Prinzip: Einem Bild wird schrittweise Rauschen hinzugefügt (vorwärts), und das Modell lernt den umgekehrten Prozess – Rauschen in ein kohärentes Bild zu transformieren. Diffusionsmodelle produzieren höhere Bildqualität und stabilere Ergebnisse als GANs.
DALL-E: OpenAIs Durchbruch (2021–2023)
DALL-E (Portmanteau aus Salvador Dalí und WALL-E) wurde im Januar 2021 von OpenAI veröffentlicht. Das erste DALL-E verwendete noch eine transformerbasierte Architektur; es konnte kreative, absurde und surreale Bildkombinationen erstellen (z. B. „Avocado in Form eines Sessels"), aber die Bildqualität war begrenzt.
DALL-E 2 (April 2022) war der eigentliche Durchbruch: Höhere Auflösung (1024×1024), fotorealistische Bildqualität, bessere Prompt-Befolgung und neue Funktionen wie Inpainting (gezieltes Ersetzen von Bildteilen) und Outpainting (Erweiterung bestehender Bilder). OpenAI öffnete DALL-E 2 zunächst nur über eine Warteliste; die kontrollierte Einführung sollte Missbrauch begrenzen.
DALL-E 3 (Oktober 2023) wurde in ChatGPT integriert und markierte eine deutliche Qualitätssteigerung; für Nicht-OpenAI-Nutzer war es über die API zugänglich.
Midjourney: Ästhetik als Kernkompetenz (ab 2022)
Midjourney wurde von einer Forschungsgruppe unter der Leitung von David Holz entwickelt und startete im März 2022 in die offene Beta. Im Gegensatz zu DALL-E und Stable Diffusion ist Midjourney ein geschlossenes, kommerzielles System ohne veröffentlichte Technologiedetails.
Midjourneys Stärke war von Beginn die ästhetische Qualität: Bilder wirkten konsistent „schön" im Sinne von Galerie-würdiger Bildkomposition, moody Beleuchtung und stilistischer Konsistenz. Midjourney verstand implizite Ästhetik-Wünsche besser als frühe DALL-E-Versionen.
Der Zugang über Discord (einem Gaming-Chat-Netzwerk) war ungewöhnlich: Nutzer eingaben Prompts in Discord-Channels; Midjourney antwortete mit Bildvarianten. Die öffentliche Discord-Community wurde zu einer der aktivsten kreativen Gemeinschaften im Internet.
Midjourney entwickelte sich rasch zum bevorzugten Tool für Konzeptkünstler, Spieleentwickler und Illustratoren. Die Version Midjourney v4 (November 2022) und v5 (März 2023) setzten neue Qualitätsmaßstäbe.
Jason Allen und der Kunstwettbewerb (2022): Das erste große öffentliche Debatte um KI-Kunst wurde ausgelöst, als Jason Allen mit einem Midjourney-generierten Bild (Théâtre D'Opéra Spatial) die Kategorie „Digitale Kunst" beim Colorado State Fair Art Competition gewann. Traditionelle Künstler protestierten; die Diskussion über KI und künstlerische Urheberschaft wurde global.
Stable Diffusion: Open-Source-Revolution (ab 2022)
Stable Diffusion wurde im August 2022 von Stability AI (Emad Mostaque) veröffentlicht – als Open-Source-Modell, das auf normaler Grafikkarten-Hardware läuft. Das war eine Revolution: Erstmals konnte jeder einen KI-Bildgenerator auf dem eigenen Computer betreiben, ohne Cloud-Kosten oder Zensur durch Plattformbetreiber.
Die Open-Source-Verfügbarkeit führte zu einem Ökosystem von Tausenden abgeleiteten Modellen und Anwendungen: Fine-Tuned Models für spezifische Stile (Anime, Fotorealismus, bestimmte Künstlerstile), Interfaces wie Automatic1111 und ComfyUI, Integrationen in Adobe Photoshop und andere Software.
ControlNet (2023) erweiterte Stable Diffusion um präzise Steuerungsmöglichkeiten: Posen von Figuren, Tiefenkarten, Konturen – Nutzer können genau vorgeben, wie eine Szene aufgebaut sein soll.
Rechtliche Konflikte und Urheberrechtsfragen
KI-Bildgeneratoren wurden auf Milliarden Bildern trainiert, die ohne explizite Genehmigung aus dem Internet gecrawlt wurden. Dies löste eine Welle von Klagen aus:
- Getty Images vs. Stability AI (2023): Getty klagte, weil Stable-Diffusion-Bilder teilweise Getty-Wasserzeichen aufwiesen – ein Beweis für das Training auf nicht-lizensierten Getty-Fotos.
- Illustratoren-Klage (2023): Eine Gruppe von Illustratorinnen klagte gegen Stability AI, Midjourney und DeviantArt wegen Nutzung ihrer Werke ohne Genehmigung oder Vergütung.
- Sarah Andersen, Kelly McKernan, Karla Ortiz: Ihre Namen wurden in Prompts verwendet, um ihren Stil zu imitieren – ein Beispiel für die Zumutbarkeit von Stil-Imitation durch KI.
Die Rechtslage ist international uneinheitlich. Die EU-KI-Verordnung (2024) verlangt Transparenz über Trainingsdaten; US-Copyright-Office stellte fest, dass rein KI-generierte Bilder keinen Urheberrechtsschutz genießen.
Adobe Firefly und die Industrie-Reaktion
Adobe Firefly (2023) war die Reaktion der Kreativbranche-Infrastruktur: Adobe trainierte Firefly ausschließlich auf Adobe Stock-Bildern, lizenzierten Inhalten und Public-Domain-Material. Das Versprechen: Keine Urheberrechtsprobleme. Firefly wurde in Photoshop als Generative Fill integriert (vgl. Adobes Geschichte: Von PostScript bis zur Creative Cloud).
Beispiele
- Théâtre D'Opéra Spatial (2022): Jason Allens Midjourney-Bild gewann Kunstwettbewerb; weltweite Debatte
- AI-generiertes Papst-Foto (2023): Virales Midjourney-Bild von Papst Franziskus im weißen Puffer-Jacket; von Millionen für real gehalten
- Deepfake-Proliferation: Stabile Diffusion ermöglichte einfachere Erstellung von Face-Swap-Deepfakes, was in bestimmten Kontexten (politische Desinformation, nicht-konsensuelles Nude-Material) erhebliche gesellschaftliche Schäden verursachte
- AI in der Filmproduktion: Konzept-Art für Spielfilme wird zunehmend mit KI-Bildgeneratoren erstellt; Studios wie Marvel nutzen KI-generierte Concept-Art im Pre-Production-Prozess
In der Praxis
Für Grafikdesigner und Illustratoren: KI-Bildgeneratoren sind Werkzeuge für schnelle Konzeptvisualisierung, Moodboard-Erstellung und Texturgenerierung. Als Ersatz für professionelle Illustration werden sie von Kunden eingesetzt – mit direkten wirtschaftlichen Auswirkungen auf Freelancer-Illustratoren.
Für Medienproduzenten und Verlage: Stock-Foto-Bibliotheken verlieren Umsatz an KI-generierte Alternativen. Shutterstock und Getty haben eigene KI-Angebote entwickelt und leisten Beitragsgebühren an Fotografen, deren Bilder fürs Training verwendet wurden.
Vergleich & Abgrenzung
| System | Kontrolle | Zensur | Qualität | Preis |
|---|---|---|---|---|
| DALL-E 3 (OpenAI) | Cloud | Streng | Sehr hoch | Credits |
| Midjourney | Cloud | Mittel | Sehr hoch | Abo |
| Stable Diffusion | Lokal/Cloud | Gering (lokal) | Hoch | Free (lokal) |
| Adobe Firefly | Cloud | Hoch | Gut | CC-Abo inkl. |
Häufige Fragen (FAQ)
Darf man KI-generierte Bilder kommerziell nutzen? Die Rechtslage variiert je nach Land und System. In den USA genießen rein KI-generierte Bilder keinen Urheberrechtsschutz; bei signifikanter menschlicher Bearbeitung kann Schutz bestehen. In der EU ist die Lage ähnlich. Kommerziell tätige Nutzer sollten die Nutzungsbedingungen der jeweiligen Plattform prüfen.
Bedrohen KI-Bildgeneratoren Illustratorenberufe? Ja, partiell. Massenmarkt-Illustrationen (Stock-Bilder, einfache Konzeptvisualisierungen) sind bereits betroffen. Hochwertige, individuell gestaltete Illustration, Markenidentitätsentwicklung und Kunst mit persönlicher Handschrift bleiben relevant.
Verwandte Einträge
- ChatGPT (2022): Wie KI die Medienwelt verändert – KI und Texterzeugung
- Adobes Geschichte: Von PostScript bis zur Creative Cloud – Adobes Reaktion mit Firefly
- Digital Divide: Globale Ungleichheit im Medienzugang – Globale Ungleichheit beim KI-Zugang
- Die Open-Source-Bewegung und ihr Einfluss auf Medien – Open-Source als Grundlage von Stable Diffusion
Weiterführend
- Ramesh, Aditya u. a. (2022): „Hierarchical Text-Conditional Image Generation with CLIP Latents." arXiv:2204.06125. OpenAI Technical Report.
- Rombach, Robin u. a. (2022): „High-Resolution Image Synthesis with Latent Diffusion Models." In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2022.
- Epstein, Ziv u. a. (2023): „Art and the Science of Generative AI." In: Science, Jg. 380, Nr. 6650, S. 1110–1111.
- Heikkilä, Melissa (2022): „This Artist Is Dominating AI-Generated Art. And He's Not Happy About It." In: MIT Technology Review, 16. September 2022.
