Stable Diffusion ist ein quelloffenes (Open-Source) KI-Bildgenerierungsmodell, das kostenlos lokal betrieben werden kann und maximale Kontrolle über den Bildgenerierungsprozess bietet.
Rubrik: GenAI & Content Creation · Unterrubrik: Tools · Niveau: Einsteiger Synonyme / Auch bekannt als: SD, SD 1.5, SDXL, Stable Diffusion XL, SD 3, Diffusion Model
Was ist Stable Diffusion?
Stable Diffusion ist ein KI-Bildgenerierungsmodell, das 2022 vom britischen Unternehmen Stability AI in Zusammenarbeit mit Forschungsgruppen entwickelt und als Open-Source-Software veröffentlicht wurde. Im Gegensatz zu Midjourney oder DALL·E 3 ist Stable Diffusion frei verfügbar: Der Quellcode und die Modellgewichte können heruntergeladen und auf dem eigenen Computer betrieben werden – ohne monatliche Gebühren und ohne Internetverbindung.
Erklärung
Funktionsprinzip: Latent Diffusion
Stable Diffusion basiert auf dem Prinzip der Latenten Diffusion (Latent Diffusion Model, LDM). Anders als frühere Diffusionsmodelle, die direkt auf der vollen Bildauflösung operierten, arbeitet Stable Diffusion in einem komprimierten Latenzraum. Das reduziert den Rechenaufwand erheblich und macht das Modell auf Consumer-Hardware ausführbar. Der Generierungsprozess beginnt mit zufälligem Rauschen, das schrittweise durch einen Denoising-Prozess in ein Bild umgewandelt wird – gesteuert durch einen Textprompt, der über einen Encoder (CLIP) in einen Zahlvektor kodiert wird.
Modell-Varianten
Stable Diffusion hat sich in mehreren Generationen weiterentwickelt:
- SD 1.5: Die langlebigste Version (2022), für die tausende spezialisierter Erweiterungsmodelle (LoRAs, Checkpoints) verfügbar sind. Weniger rechenintensiv; ideal für ältere Hardware.
- SDXL (Stable Diffusion XL): Eine überarbeitete Architektur (2023) mit höherer Standardauflösung (1024×1024 Pixel) und verbesserter Detailqualität.
- SD 3 / SD 3.5: Die neueste Generation (2024) mit verbesserter Textdarstellung im Bild und mehrstufiger Diffusionsarchitektur (Multimodal Diffusion Transformer).
- Flux: Entwickelt von ehemaligen Stability-AI-Mitarbeitenden (Black Forest Labs), gilt Flux (2024) als qualitativ überlegen und wird zunehmend als Nachfolger von SDXL eingesetzt.
Benutzeroberflächen
Da Stable Diffusion selbst nur ein Modell ohne Oberfläche ist, existieren verschiedene Frontends:
AUTOMATIC1111 (auch bekannt als stable-diffusion-webui) ist die am weitesten verbreitete Oberfläche. Sie bietet über eine browserbasierte Benutzeroberfläche Zugang zu Txt2Img, Img2Img, Inpainting, Extras und zahlreichen Erweiterungen. Der Einstieg ist für Nicht-Techniker:innen moderat aufwendig.
ComfyUI ist ein node-basiertes Interface, das besonders für fortgeschrittene Workflows geeignet ist. Statt Schaltflächen werden Verarbeitungsschritte als verbundene Knoten visualisiert – ähnlich Blenders Node Editor. ComfyUI ist flexibler, hat aber eine steilere Lernkurve.
LoRA und Fine-Tuning
LoRA (Low-Rank Adaptation) ist eine Methode, um Stable Diffusion mit vergleichsweise wenig Rechenaufwand auf spezifische Stile, Charaktere oder Objekte zu trainieren. Eine LoRA ist ein kleines Erweiterungsmodell, das auf das Basismodell aufgesetzt wird. Über Plattformen wie Civitai stehen tausende kostenlos verfügbare LoRAs zur Verfügung – für Anime-Stile, realistische Porträts, bestimmte Künstlerstile oder Unternehmenslogos.
ControlNet
ControlNet ist eine bedeutende Erweiterung, die es ermöglicht, den Bildgenerierungsprozess durch strukturelle Eingaben zu steuern:
- Canny: Erkennt Kanten eines Referenzbildes und überträgt die Struktur auf das neue Bild.
- Depth: Nutzt Tiefeninformationen zur Erhaltung der räumlichen Struktur.
- OpenPose: Überträgt Körperhaltungen von Referenzbildern auf neue Charaktergenerierungen.
Mit ControlNet ist es möglich, aus einer einfachen Skizze oder einem Referenzfoto ein hochwertiges KI-Bild mit exakt der gewünschten Komposition zu erzeugen.
Inpainting und Outpainting
Inpainting ermöglicht das gezielte Ersetzen von Bildteilen: Ein Bereich wird maskiert; Stable Diffusion füllt ihn auf Basis des Prompts aus. Outpainting erweitert das Bild über seine ursprünglichen Grenzen hinaus.
Lokale Installation vs. Cloud-Dienste
Stable Diffusion kann lokal installiert werden – empfohlen wird eine NVIDIA-Grafikkarte mit mindestens 6 GB VRAM. Wer keine leistungsstarke Hardware hat, kann auf Cloud-Dienste wie Replicate.com, RunDiffusion oder Google Colab zurückgreifen. Online-Plattformen wie DreamStudio (Stability AI eigene Oberfläche) bieten einen einfacheren Einstieg.
Die Vorteile der lokalen Nutzung gegenüber Cloud-Diensten: keine Zensur durch Content-Filter (volle kreative Freiheit im legalen Rahmen), keine monatlichen Gebühren (nur Stromkosten), Datenschutz (keine Daten werden hochgeladen), offline nutzbar.
Beispiele
- Konsistente Charaktere: Eine Spieleentwicklerin trainiert eine LoRA auf einem selbst entworfenen Charakter und kann diesen anschließend in unzähligen Szenen und Posen konsistent generieren.
- Storyboard-Produktion: Ein Filmstudent nutzt ControlNet mit OpenPose, um aus Storyboard-Skizzen realistische KI-Bilder zu erstellen und so Investor:innen sein Projekt zu präsentieren.
- Produktfotografie-Alternative: Eine Agentur generiert Produktbilder in verschiedenen Umgebungen per Inpainting – das physische Produkt wird freigestellt und digital in KI-generierte Kulissen eingefügt.
In der Praxis
Für den Einstieg in Stable Diffusion empfiehlt sich: 1. AUTOMATIC1111 über eine Anleitung installieren (oder eine Cloud-Plattform nutzen); 2. ein Basismodell wie SDXL oder Flux herunterladen; 3. mit einfachen Prompts beginnen und schrittweise Parameter erkunden. Die Community rund um Stable Diffusion ist sehr aktiv; Civitai.com und reddit.com/r/StableDiffusion sind gute Anlaufstellen für Modelle, Guides und Feedback.
Vergleich & Abgrenzung
Stable Diffusion unterscheidet sich von Midjourney und DALL·E 3 vor allem durch seine Offenheit: Es ist kostenlos, lokal nutzbar und vollständig anpassbar. Midjourney liefert oft konsistenter ästhetisch hochwertige Ergebnisse ohne technisches Wissen. DALL·E 3 ist am einfachsten zugänglich (direkt in ChatGPT). Für technisch interessierte Nutzer:innen mit Datenschutzanforderungen oder spezialisierten Anwendungsfällen ist Stable Diffusion die erste Wahl.
Häufige Fragen (FAQ)
Welche Hardware brauche ich für Stable Diffusion? Empfohlen wird eine NVIDIA-Grafikkarte (GPU) mit mindestens 6–8 GB Videospeicher (VRAM). SDXL und Flux benötigen eher 10–12 GB VRAM für komfortables Arbeiten. Wer keine passende Hardware hat, kann Stable Diffusion über Cloud-Dienste nutzen. Apple-Computer mit M1/M2/M3-Chips können Stable Diffusion ebenfalls betreiben, aber deutlich langsamer als dedizierte NVIDIA-GPUs.
Sind Stable-Diffusion-Bilder urheberrechtsfrei? Das Modell wurde auf Bildern aus dem Internet trainiert, was zu rechtlichen Auseinandersetzungen geführt hat (z. B. Klagen von Getty Images gegen Stability AI). Für die generierten Bilder selbst gilt in den meisten Ländern: Da keine menschliche Schöpfungsleistung vorliegt, kein Urheberrecht. Das bedeutet aber auch, dass Dritte die Bilder ebenfalls nutzen könnten. Die Verwendung für kommerzielle Zwecke sollte rechtlich geprüft werden.
Verwandte Einträge
Weiterführend
- Rombach, R. et al. (2022): High-Resolution Image Synthesis with Latent Diffusion Models. CVPR 2022 / arXiv:2112.10752
- Stability AI (2024): Stable Diffusion 3 Technical Report. stability.ai
- Müller, T. (2023): Stable Diffusion für Einsteiger – Schritt für Schritt. t3n Magazin, Nr. 73
