KI-Fotografie und generative Bildgestaltung bezeichnet die Erzeugung fotografisch realistischer oder künstlerischer Bilder durch neuronale Netzwerke – insbesondere durch diffusionsbasierte Modelle wie DALL-E (OpenAI, 2021), Midjourney (2022) und Stable Diffusion (Stability AI, 2022), die eine neue Ära in der visuellen Kommunikation einleiteten.
Rubrik: Mediengeschichte & Chronologie · Unterrubrik: Geschichte der Fotografie · Niveau: Einsteiger Synonyme / Auch bekannt als: Text-to-Image, Generative KI, AI-generated Images, Diffusionsmodelle, synthetische Bildgebung
Was ist/war KI-Fotografie?
KI-Fotografie bezeichnet zwei verwandte Phänomene: Erstens die KI-gestützte Verbesserung und Bearbeitung fotografischer Aufnahmen (Computational Photography, KI-Rauschreduzierung, KI-Autofokus, Super Resolution); zweitens die vollständige Generierung von Bildern durch künstliche Intelligenz ohne physische Kameraaufnahme. Der Begriff "KI-Fotografie" wird häufig für das zweite Phänomen verwendet – also Bilder, die wie Fotos aussehen, aber vollständig algorithmisch erzeugt wurden, ohne dass eine Kamera beteiligt war.
Erklärung
Die technischen Grundlagen der modernen Bildgenerierung liegen in zwei Entwicklungssträngen der KI-Forschung: Generative Adversarial Networks (GANs, entwickelt von Ian Goodfellow 2014) und Diffusionsmodelle (grundlegende Arbeiten von Sohl-Dickstein et al. 2015, entscheidend weiterentwickelt von Jonathan Ho et al. 2020 mit "Denoising Diffusion Probabilistic Models").
GANs funktionieren durch ein Wettbewerbsprinzip: Ein Generator-Netzwerk erzeugt Bilder, ein Diskriminator-Netzwerk bewertet, ob sie "echt" aussehen. Durch Millionen von Trainingsiterationen lernt der Generator immer realistischere Bilder zu erzeugen. GANs produzierten ab 2017 beeindruckende Gesichter (NVIDIAs StyleGAN, 2018: synthetische Gesichter, die von echten kaum zu unterscheiden sind).
Diffusionsmodelle sind der neuere und derzeit dominierende Ansatz: Das Modell lernt, aus zufälligem Rauschen schrittweise ein kohärentes Bild zu entwickeln – analog zum umgekehrten Prozess des "Hinzufügens von Rauschen". Kombiniert mit CLIP (Contrastive Language-Image Pre-training, OpenAI, 2021) – einem Modell, das Text und Bild in einem gemeinsamen Darstellungsraum versteht – entstehen Text-zu-Bild-Systeme: Der Nutzer gibt einen Textprompt ein, das Modell generiert ein passendes Bild.
Chronologie der wichtigsten Systeme:
- DALL-E (OpenAI, Januar 2021): Erstes weit beachtetes Text-zu-Bild-System; 12 Milliarden Parameter; kreative, aber noch stilisierte Bilder; nicht öffentlich zugänglich
- DALL-E 2 (OpenAI, April 2022): Deutlich realistischere Bilder; CLIP + Diffusion; beschränkter öffentlicher Zugang; 1024×1024 Pixel
- Midjourney (David Holz / Midjourney Inc., März 2022): Discord-basierter Dienst; schnell zur bevorzugten Plattform für kreative Nutzer; ästhetisch besonders ansprechende Ergebnisse; verschiedene Versionen (v1–v6) mit stetig verbesserter Qualität
- Stable Diffusion (Stability AI / LMU München, August 2022): Erste vollständig open-source veröffentlichte Bildgenerator-KI; lokal auf eigenen Computern installierbar; demokratisierte Bildgenerierung radikal; Basis für hunderte abgeleiteter Modelle
- Imagen (Google, Mai 2022): Googles Gegenstück; noch nicht vollständig öffentlich
- Adobe Firefly (März 2023): In Creative Cloud integriert; auf lizenziertem Bildmaterial trainiert; "Generative Fill" in Photoshop als ersten kommerziell nutzbaren, rechtssicheren KI-Bildgenerator
- DALL-E 3 (OpenAI / ChatGPT, Oktober 2023): Eng mit Sprach-KI integriert; verbesserte Prompt-Treue
- Midjourney v6 / v7 (2024–2025): Fotorealistische Qualität; kaum von echten Fotos zu unterscheiden
- Sora (OpenAI, Februar 2024): Text-zu-Video-System; erste Demonstrationen zeigte kinoreife Videoclips
Die gesellschaftlichen und rechtlichen Fragen sind tiefgreifend: Auf welchen Daten wurden die Modelle trainiert? Wem gehören KI-generierte Bilder? Wie kann manipulierten oder gefälschten Fotos entgegengewirkt werden? Die Getty Images vs. Stability AI-Klage (2023) und zahlreiche andere Urheberrechtsklagen gegen KI-Anbieter markieren den rechtlichen Beginn einer noch ungelösten Debatte. Das Weltstrafgericht der Pressefotografie, World Press Photo, erließ 2023 strenge Regeln gegen generative KI in Wettbewerbsbeiträgen.
Historische Bedeutung & Auswirkungen
KI-Fotografie stellt die philosophische Grundfrage: Was ist ein Foto? War Fotografie bisher an eine physische Lichtreaktion geknüpft – das Auftreffen von Photonen auf lichtempfindliches Material oder einen Sensor – so entkoppeln generative KI-Systeme das "fotografisch aussehende Bild" von jeder physischen Wirklichkeit. Dies hat direkte Auswirkungen auf den Fotojournalismus (Vertrauen in Bilder), die Stockfotografie (Konkurrenz durch günstige KI-Bilder), die Werbefotografie (Kosteneinsparung) und die künstlerische Fotografie (neue kreative Werkzeuge).
Wichtige Personen & Werke
- Ian Goodfellow (geb. 1985): Erfinder der Generative Adversarial Networks (GANs, 2014); fundamentale Vorstufe der modernen Bildgenerierung
- Jonathan Ho et al. (Google Brain, 2020): Entwickler der Denoising Diffusion Probabilistic Models (DDPM)
- David Holz (geb. 1988): Gründer von Midjourney
- Emad Mostaque (geb. 1981): Mitgründer von Stability AI (Stable Diffusion)
- Boris Eldagsen: Gewann 2023 den Sony World Photography Award mit einem KI-generierten Bild und lehnte den Preis öffentlich ab – ein Medienereignis
Vergleich & Abgrenzung
KI-Bildgenerierung vs. traditionelle Fotografie: Fotografie bildet physische Realität ab; KI-Generierung erzeugt Bilder, die Realität simulieren, aber keine physische Vorlage haben. KI-Bildbearbeitung (Photoshop Generative Fill, Lightroom AI-Denoise) vs. vollständige Generierung: Bildbearbeitung manipuliert ein existierendes Foto; vollständige Generierung erzeugt ein Bild aus dem Nichts. Midjourney vs. Stable Diffusion: Midjourney ist ein kommerzieller Dienst mit proprietärem Modell; Stable Diffusion ist open-source und lokal nutzbar.
Häufige Fragen (FAQ)
Ist KI-Fotografie eine Bedrohung für Berufsfotografen? KI-Fotografie verdrängt bereits Teile der Stockfotografie und einfacher Werbefotografie. Für kreative, emotionale und dokumentarische Fotografie – die auf menschlicher Erfahrung, Präsenz und Authentizität basiert – ist KI kein Ersatz, wohl aber ein Konkurrent in bestimmten Marktsegmenten. Die stärkste Bedrohung trifft Studioaufnahmen von Produkten und generische Personenfotos.
Wie kann man KI-generierte Bilder erkennen? Aktuelle KI-Bilder zeigen oft charakteristische Fehler: falsche Finger (zu viele/wenige), inkonsistente Texte auf Schildern, unphysikalische Lichtquellen, symmetrische Gesichtsdetails. Spezialisierte Erkennungs-KI (Content Authenticity Initiative, CAI; C2PA-Standard) kann Metadaten prüfen. Mit zunehmender KI-Qualität wird visuelle Erkennung immer schwieriger; technische Wasserzeichen und Provenienz-Metadaten werden zum wichtigsten Instrument.
Verwandte Einträge
Weiterführend
- Rombach, Robin et al.: "High-Resolution Image Synthesis with Latent Diffusion Models". In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2022
- Content Authenticity Initiative (CAI) / C2PA-Standard: www.contentauthenticity.org
