KI-Fotografie & Generative Bildgestaltung, Midjourney, DALL-E und die neue Bildwelt

KI-Fotografie und generative Bildgestaltung bezeichnet die Erzeugung fotografisch realistischer oder künstlerischer Bilder durch neuronale Netzwerke, insbesondere durch diffusionsbasierte Modelle wie DALL-E (OpenAI, 2021), Midjourney (2022) und Stable Diffusion (Stability AI, 2022), die eine neue Ära in der visuellen Kommunikation einleiteten.

Rubrik: Mediengeschichte & Chronologie · Unterrubrik: Geschichte der Fotografie · Niveau: Einsteiger Synonyme / Auch bekannt als: Text-to-Image, Generative KI, AI-generated Images, Diffusionsmodelle, synthetische Bildgebung

Was ist/war KI-Fotografie?

KI-Fotografie bezeichnet zwei verwandte Phänomene: Erstens die KI-gestützte Verbesserung und Bearbeitung fotografischer Aufnahmen (Computational Photography, KI-Rauschreduzierung, KI-Autofokus, Super Resolution); zweitens die vollständige Generierung von Bildern durch künstliche Intelligenz ohne physische Kameraaufnahme. Der Begriff "KI-Fotografie" wird häufig für das zweite Phänomen verwendet, also Bilder, die wie Fotos aussehen, aber vollständig algorithmisch erzeugt wurden, ohne dass eine Kamera beteiligt war.

Erklärung

Die technischen Grundlagen der modernen Bildgenerierung liegen in zwei Entwicklungssträngen der KI-Forschung: Generative Adversarial Networks (GANs, entwickelt von Ian Goodfellow 2014) und Diffusionsmodelle (grundlegende Arbeiten von Sohl-Dickstein et al. 2015, entscheidend weiterentwickelt von Jonathan Ho et al. 2020 mit "Denoising Diffusion Probabilistic Models").

GANs funktionieren durch ein Wettbewerbsprinzip: Ein Generator-Netzwerk erzeugt Bilder, ein Diskriminator-Netzwerk bewertet, ob sie "echt" aussehen. Durch Millionen von Trainingsiterationen lernt der Generator immer realistischere Bilder zu erzeugen. GANs produzierten ab 2017 beeindruckende Gesichter (NVIDIAs StyleGAN, 2018: synthetische Gesichter, die von echten kaum zu unterscheiden sind).

Diffusionsmodelle sind der neuere und derzeit dominierende Ansatz: Das Modell lernt, aus zufälligem Rauschen schrittweise ein kohärentes Bild zu entwickeln, analog zum umgekehrten Prozess des "Hinzufügens von Rauschen". Kombiniert mit CLIP (Contrastive Language-Image Pre-training, OpenAI, 2021), einem Modell, das Text und Bild in einem gemeinsamen Darstellungsraum versteht, entstehen Text-zu-Bild-Systeme: Der Nutzer gibt einen Textprompt ein, das Modell generiert ein passendes Bild.

Chronologie der wichtigsten Systeme:

DALL-E (OpenAI, Januar 2021): Erstes weit beachtetes Text-zu-Bild-System; 12 Milliarden Parameter; kreative, aber noch stilisierte Bilder; nicht öffentlich zugänglich
DALL-E 2 (OpenAI, April 2022): Deutlich realistischere Bilder; CLIP + Diffusion; beschränkter öffentlicher Zugang; 1024×1024 Pixel
Midjourney (David Holz / Midjourney Inc., März 2022): Discord-basierter Dienst; schnell zur bevorzugten Plattform für kreative Nutzer; ästhetisch besonders ansprechende Ergebnisse; verschiedene Versionen (v1–v6) mit stetig verbesserter Qualität
Stable Diffusion (Stability AI / LMU München, August 2022): Erste vollständig open-source veröffentlichte Bildgenerator-KI; lokal auf eigenen Computern installierbar; demokratisierte Bildgenerierung radikal; Basis für hunderte abgeleiteter Modelle
Imagen (Google, Mai 2022): Googles Gegenstück; noch nicht vollständig öffentlich
Adobe Firefly (März 2023): In Creative Cloud integriert; auf lizenziertem Bildmaterial trainiert; "Generative Fill" in Photoshop als ersten kommerziell nutzbaren, rechtssicheren KI-Bildgenerator
DALL-E 3 (OpenAI / ChatGPT, Oktober 2023): Eng mit Sprach-KI integriert; verbesserte Prompt-Treue
Midjourney v6 / v7 (2024–2025): Fotorealistische Qualität; kaum von echten Fotos zu unterscheiden
Sora (OpenAI, Februar 2024): Text-zu-Video-System; erste Demonstrationen zeigte kinoreife Videoclips

Die gesellschaftlichen und rechtlichen Fragen sind tiefgreifend: Auf welchen Daten wurden die Modelle trainiert? Wem gehören KI-generierte Bilder? Wie kann manipulierten oder gefälschten Fotos entgegengewirkt werden? Die Getty Images vs. Stability AI-Klage (2023) und zahlreiche andere Urheberrechtsklagen gegen KI-Anbieter markieren den rechtlichen Beginn einer noch ungelösten Debatte. Das Weltstrafgericht der Pressefotografie, World Press Photo, erließ 2023 strenge Regeln gegen generative KI in Wettbewerbsbeiträgen.

Historische Bedeutung & Auswirkungen

KI-Fotografie stellt die philosophische Grundfrage: Was ist ein Foto? War Fotografie bisher an eine physische Lichtreaktion geknüpft, das Auftreffen von Photonen auf lichtempfindliches Material oder einen Sensor, so entkoppeln generative KI-Systeme das "fotografisch aussehende Bild" von jeder physischen Wirklichkeit. Dies hat direkte Auswirkungen auf den Fotojournalismus (Vertrauen in Bilder), die Stockfotografie (Konkurrenz durch günstige KI-Bilder), die Werbefotografie (Kosteneinsparung) und die künstlerische Fotografie (neue kreative Werkzeuge).

Wichtige Personen & Werke

Ian Goodfellow (geb. 1985): Erfinder der Generative Adversarial Networks (GANs, 2014); fundamentale Vorstufe der modernen Bildgenerierung
Jonathan Ho et al. (Google Brain, 2020): Entwickler der Denoising Diffusion Probabilistic Models (DDPM)
David Holz (geb. 1988): Gründer von Midjourney
Emad Mostaque (geb. 1981): Mitgründer von Stability AI (Stable Diffusion)
Boris Eldagsen: Gewann 2023 den Sony World Photography Award mit einem KI-generierten Bild und lehnte den Preis öffentlich ab, ein Medienereignis

Vergleich & Abgrenzung

KI-Bildgenerierung vs. traditionelle Fotografie: Fotografie bildet physische Realität ab; KI-Generierung erzeugt Bilder, die Realität simulieren, aber keine physische Vorlage haben. KI-Bildbearbeitung (Photoshop Generative Fill, Lightroom AI-Denoise) vs. vollständige Generierung: Bildbearbeitung manipuliert ein existierendes Foto; vollständige Generierung erzeugt ein Bild aus dem Nichts. Midjourney vs. Stable Diffusion: Midjourney ist ein kommerzieller Dienst mit proprietärem Modell; Stable Diffusion ist open-source und lokal nutzbar.

Häufige Fragen (FAQ)

Ist KI-Fotografie eine Bedrohung für Berufsfotografen? KI-Fotografie verdrängt bereits Teile der Stockfotografie und einfacher Werbefotografie. Für kreative, emotionale und dokumentarische Fotografie, die auf menschlicher Erfahrung, Präsenz und Authentizität basiert, ist KI kein Ersatz, wohl aber ein Konkurrent in bestimmten Marktsegmenten. Die stärkste Bedrohung trifft Studioaufnahmen von Produkten und generische Personenfotos.

Wie kann man KI-generierte Bilder erkennen? Aktuelle KI-Bilder zeigen oft charakteristische Fehler: falsche Finger (zu viele/wenige), inkonsistente Texte auf Schildern, unphysikalische Lichtquellen, symmetrische Gesichtsdetails. Spezialisierte Erkennungs-KI (Content Authenticity Initiative, CAI; C2PA-Standard) kann Metadaten prüfen. Mit zunehmender KI-Qualität wird visuelle Erkennung immer schwieriger; technische Wasserzeichen und Provenienz-Metadaten werden zum wichtigsten Instrument.

Weiterführend

Rombach, Robin et al.: "High-Resolution Image Synthesis with Latent Diffusion Models". In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2022
Content Authenticity Initiative (CAI) / C2PA-Standard: www.contentauthenticity.org

Was ist/war KI-Fotografie?

Erklärung

Historische Bedeutung & Auswirkungen

Wichtige Personen & Werke

Vergleich & Abgrenzung

Häufige Fragen (FAQ)

Verwandte Einträge

Weiterführend

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.

Platz beim Infotag reservieren

KI-Fotografie & Generative Bildgestaltung, Midjourney, DALL-E und die neue Bildwelt

Was ist/war KI-Fotografie?

Erklärung

Historische Bedeutung & Auswirkungen

Wichtige Personen & Werke

Vergleich & Abgrenzung

Häufige Fragen (FAQ)

Verwandte Einträge

Weiterführend

Sei am Mittwoch dabei.Bring Eltern oder Freunde mit.

Platz beim Infotag reservieren

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.