Geschichte der KI-Bildgeneratoren (DALL-E, Midjourney, Stable Diffusion)

KI-Bildgeneratoren sind Softwaresysteme, die auf Basis von Textbeschreibungen (Prompts) synthetische Bilder erzeugen. Ihre kommerzielle Durchsetzung ab 2021/2022 mit DALL-E 2, Midjourney und Stable Diffusion löste fundamentale Debatten über Urheberrecht, kreative Arbeit und die Zukunft visueller Medienproduktion aus.

Rubrik: Mediengeschichte & Chronologie · Unterrubrik: Digitale Ära · Niveau: Fortgeschritten Synonyme / Auch bekannt als: Text-to-Image-Modelle, Generative Bildmodelle, AI Art Generator

Was sind KI-Bildgeneratoren?

KI-Bildgeneratoren sind das spektakulärste Anwendungsfeld der generativen Künstlichen Intelligenz in der visuellen Kommunikation. Sie können fotorealistische Szenen, Illustrationen in beliebigen Stilen, Porträts, Landschaften und abstrakte Kunstwerke aus wenigen Worten erzeugen, in Sekunden, kostenlos oder für Centbeträge. Die gesellschaftlichen Implikationen reichen von der Demokratisierung visueller Kreativität bis zur existenziellen Bedrohung für Berufsillustratorinnen und Stockfoto-Agenturen.

Erklärung

Technologische Vorgeschichte (2014–2021)

Die Geschichte der KI-Bildgenerierung beginnt mit zwei Schlüsselinnovationen:

GANs (Generative Adversarial Networks, 2014): Ian Goodfellow und Kollegen beschrieben 2014 ein neuartiges Trainingsverfahren: Zwei neuronale Netze werden gegeneinander trainiert, ein Generator, der Bilder erstellt, und ein Diskriminator, der echte von gefälschten Bildern unterscheidet. Durch diesen Wettbewerb lernte der Generator immer realistischere Bilder zu erzeugen.

GANs ermöglichten frühe Meilensteine: This Person Does Not Exist (thispersondoesnotexist.com, 2019) zeigte fotorealistische Gesichter vollständig fiktiver Menschen, erstmals wurden die Möglichkeiten (und Risiken) von KI-Bildgenerierung einer breiten Öffentlichkeit bewusst.

CLIP (Contrastive Language-Image Pre-training, OpenAI, 2021): OpenAI veröffentlichte CLIP, ein Modell, das Textbeschreibungen und Bilder in einem gemeinsamen semantischen Raum verstand. CLIP wurde zur Grundlage für Text-zu-Bild-Modelle.

Diffusionsmodelle: Parallel zu GANs entwickelte sich eine alternative Architektur: Diffusionsmodelle. Das Prinzip: Einem Bild wird schrittweise Rauschen hinzugefügt (vorwärts), und das Modell lernt den umgekehrten Prozess, Rauschen in ein kohärentes Bild zu transformieren. Diffusionsmodelle produzieren höhere Bildqualität und stabilere Ergebnisse als GANs.

DALL-E: OpenAIs Durchbruch (2021–2023)

DALL-E (Portmanteau aus Salvador Dalí und WALL-E) wurde im Januar 2021 von OpenAI veröffentlicht. Das erste DALL-E verwendete noch eine transformerbasierte Architektur; es konnte kreative, absurde und surreale Bildkombinationen erstellen (z. B. „Avocado in Form eines Sessels"), aber die Bildqualität war begrenzt.

DALL-E 2 (April 2022) war der eigentliche Durchbruch: Höhere Auflösung (1024×1024), fotorealistische Bildqualität, bessere Prompt-Befolgung und neue Funktionen wie Inpainting (gezieltes Ersetzen von Bildteilen) und Outpainting (Erweiterung bestehender Bilder). OpenAI öffnete DALL-E 2 zunächst nur über eine Warteliste; die kontrollierte Einführung sollte Missbrauch begrenzen.

DALL-E 3 (Oktober 2023) wurde in ChatGPT integriert und markierte eine deutliche Qualitätssteigerung; für Nicht-OpenAI-Nutzer war es über die API zugänglich.

Midjourney: Ästhetik als Kernkompetenz (ab 2022)

Midjourney wurde von einer Forschungsgruppe unter der Leitung von David Holz entwickelt. Im März 2022 startete der Discord-Server in einer geschlossenen Betaphase; die offene Beta begann am 12. Juli 2022. Im Gegensatz zu DALL-E und Stable Diffusion ist Midjourney ein geschlossenes, kommerzielles System ohne veröffentlichte Technologiedetails.

Midjourneys Stärke war von Beginn die ästhetische Qualität: Bilder wirkten konsistent „schön" im Sinne von Galerie-würdiger Bildkomposition, moody Beleuchtung und stilistischer Konsistenz. Midjourney verstand implizite Ästhetik-Wünsche besser als frühe DALL-E-Versionen.

Der Zugang über Discord (einem Gaming-Chat-Netzwerk) war ungewöhnlich: Nutzer eingaben Prompts in Discord-Channels; Midjourney antwortete mit Bildvarianten. Die öffentliche Discord-Community wurde zu einer der aktivsten kreativen Gemeinschaften im Internet.

Midjourney entwickelte sich rasch zum bevorzugten Tool für Konzeptkünstler, Spieleentwickler und Illustratoren. Die Version Midjourney v4 (November 2022) und v5 (März 2023) setzten neue Qualitätsmaßstäbe.

Jason Allen und der Kunstwettbewerb (2022): Das erste große öffentliche Debatte um KI-Kunst wurde ausgelöst, als Jason Allen mit einem Midjourney-generierten Bild (Théâtre D'Opéra Spatial) die Kategorie „Digitale Kunst" beim Colorado State Fair Art Competition gewann. Traditionelle Künstler protestierten; die Diskussion über KI und künstlerische Urheberschaft wurde global.

Stable Diffusion: Open-Source-Revolution (ab 2022)

Stable Diffusion wurde im August 2022 von Stability AI (Emad Mostaque) veröffentlicht, als Open-Source-Modell, das auf normaler Grafikkarten-Hardware läuft. Das war eine Revolution: Erstmals konnte jeder einen KI-Bildgenerator auf dem eigenen Computer betreiben, ohne Cloud-Kosten oder Zensur durch Plattformbetreiber.

Die Open-Source-Verfügbarkeit führte zu einem Ökosystem von Tausenden abgeleiteten Modellen und Anwendungen: Fine-Tuned Models für spezifische Stile (Anime, Fotorealismus, bestimmte Künstlerstile), Interfaces wie Automatic1111 und ComfyUI, Integrationen in Adobe Photoshop und andere Software.

ControlNet (2023) erweiterte Stable Diffusion um präzise Steuerungsmöglichkeiten: Posen von Figuren, Tiefenkarten, Konturen, Nutzer können genau vorgeben, wie eine Szene aufgebaut sein soll.

Rechtliche Konflikte und Urheberrechtsfragen

KI-Bildgeneratoren wurden auf Milliarden Bildern trainiert, die ohne explizite Genehmigung aus dem Internet gecrawlt wurden. Dies löste eine Welle von Klagen aus:

Getty Images vs. Stability AI (2023): Getty klagte, weil Stable-Diffusion-Bilder teilweise Getty-Wasserzeichen aufwiesen, ein Beweis für das Training auf nicht-lizensierten Getty-Fotos.
Illustratoren-Klage (2023): Eine Gruppe von Illustratorinnen klagte gegen Stability AI, Midjourney und DeviantArt wegen Nutzung ihrer Werke ohne Genehmigung oder Vergütung.
Sarah Andersen, Kelly McKernan, Karla Ortiz: Ihre Namen wurden in Prompts verwendet, um ihren Stil zu imitieren, ein Beispiel für die Zumutbarkeit von Stil-Imitation durch KI.

Die Rechtslage ist international uneinheitlich. Die EU-KI-Verordnung (2024) verlangt Transparenz über Trainingsdaten; US-Copyright-Office stellte fest, dass rein KI-generierte Bilder keinen Urheberrechtsschutz genießen.

Adobe Firefly und die Industrie-Reaktion

Adobe Firefly (2023) war die Reaktion der Kreativbranche-Infrastruktur: Adobe trainierte Firefly ausschließlich auf Adobe Stock-Bildern, lizenzierten Inhalten und Public-Domain-Material. Das Versprechen: Keine Urheberrechtsprobleme. Firefly wurde in Photoshop als Generative Fill integriert (vgl. Adobes Geschichte: Von PostScript bis zur Creative Cloud).

Beispiele

Théâtre D'Opéra Spatial (2022): Jason Allens Midjourney-Bild gewann Kunstwettbewerb; weltweite Debatte
AI-generiertes Papst-Foto (2023): Virales Midjourney-Bild von Papst Franziskus im weißen Puffer-Jacket; von Millionen für real gehalten
Deepfake-Proliferation: Stabile Diffusion ermöglichte einfachere Erstellung von Face-Swap-Deepfakes, was in bestimmten Kontexten (politische Desinformation, nicht-konsensuelles Nude-Material) erhebliche gesellschaftliche Schäden verursachte
AI in der Filmproduktion: Konzept-Art für Spielfilme wird zunehmend mit KI-Bildgeneratoren erstellt; Studios wie Marvel nutzen KI-generierte Concept-Art im Pre-Production-Prozess

In der Praxis

Für Grafikdesigner und Illustratoren: KI-Bildgeneratoren sind Werkzeuge für schnelle Konzeptvisualisierung, Moodboard-Erstellung und Texturgenerierung. Als Ersatz für professionelle Illustration werden sie von Kunden eingesetzt, mit direkten wirtschaftlichen Auswirkungen auf Freelancer-Illustratoren.

Für Medienproduzenten und Verlage: Stock-Foto-Bibliotheken verlieren Umsatz an KI-generierte Alternativen. Shutterstock und Getty haben eigene KI-Angebote entwickelt und leisten Beitragsgebühren an Fotografen, deren Bilder fürs Training verwendet wurden.

Vergleich & Abgrenzung

System	Kontrolle	Zensur	Qualität	Preis
DALL-E 3 (OpenAI)	Cloud	Streng	Sehr hoch	Credits
Midjourney	Cloud	Mittel	Sehr hoch	Abo
Stable Diffusion	Lokal/Cloud	Gering (lokal)	Hoch	Free (lokal)
Adobe Firefly	Cloud	Hoch	Gut	CC-Abo inkl.

Häufige Fragen (FAQ)

Darf man KI-generierte Bilder kommerziell nutzen? Die Rechtslage variiert je nach Land und System. In den USA genießen rein KI-generierte Bilder keinen Urheberrechtsschutz; bei signifikanter menschlicher Bearbeitung kann Schutz bestehen. In der EU ist die Lage ähnlich. Kommerziell tätige Nutzer sollten die Nutzungsbedingungen der jeweiligen Plattform prüfen.

Bedrohen KI-Bildgeneratoren Illustratorenberufe? Ja, partiell. Massenmarkt-Illustrationen (Stock-Bilder, einfache Konzeptvisualisierungen) sind bereits betroffen. Hochwertige, individuell gestaltete Illustration, Markenidentitätsentwicklung und Kunst mit persönlicher Handschrift bleiben relevant.

Weiterführend

Ramesh, Aditya u. a. (2022): „Hierarchical Text-Conditional Image Generation with CLIP Latents." arXiv:2204.06125. OpenAI Technical Report.
Rombach, Robin u. a. (2022): „High-Resolution Image Synthesis with Latent Diffusion Models." In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2022.
Epstein, Ziv u. a. (2023): „Art and the Science of Generative AI." In: Science, Jg. 380, Nr. 6650, S. 1110–1111.
Heikkilä, Melissa (2022): „This Artist Is Dominating AI-Generated Art. And He's Not Happy About It." In: MIT Technology Review, 16. September 2022.

Was sind KI-Bildgeneratoren?

Erklärung

Technologische Vorgeschichte (2014–2021)

DALL-E: OpenAIs Durchbruch (2021–2023)

Midjourney: Ästhetik als Kernkompetenz (ab 2022)

Stable Diffusion: Open-Source-Revolution (ab 2022)

Rechtliche Konflikte und Urheberrechtsfragen

Adobe Firefly und die Industrie-Reaktion

Beispiele

In der Praxis

Vergleich & Abgrenzung

Häufige Fragen (FAQ)

Verwandte Einträge

Weiterführend

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.

Platz beim Infotag reservieren

Geschichte der KI-Bildgeneratoren (DALL-E, Midjourney, Stable Diffusion)

Was sind KI-Bildgeneratoren?

Erklärung

Technologische Vorgeschichte (2014–2021)

DALL-E: OpenAIs Durchbruch (2021–2023)

Midjourney: Ästhetik als Kernkompetenz (ab 2022)

Stable Diffusion: Open-Source-Revolution (ab 2022)

Rechtliche Konflikte und Urheberrechtsfragen

Adobe Firefly und die Industrie-Reaktion

Beispiele

In der Praxis

Vergleich & Abgrenzung

Häufige Fragen (FAQ)

Verwandte Einträge

Weiterführend

Sei am Mittwoch dabei.Bring Eltern oder Freunde mit.

Platz beim Infotag reservieren

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.