Stable Diffusion ist ein quelloffenes Latent-Diffusion-Modell zur KI-gestützten Bildsynthese, das lokal auf Consumer-Hardware betrieben werden kann und auf der Forschung von Rombach et al. (2022) basiert.
Rubrik: GenAI & Content Creation · Unterrubrik: Stable Diffusion · Niveau: Fortgeschritten
Was ist Stable Diffusion?
Stable Diffusion ist ein generatives KI-Modell, das aus Texteingaben (Prompts) realistische oder künstlerische Bilder erzeugt. Im Gegensatz zu proprietären Systemen wie Midjourney oder DALL-E ist Stable Diffusion vollständig quelloffen: Modellgewichte, Trainingscode und Architektur sind öffentlich verfügbar. Das ermöglicht lokale Installation auf eigener Hardware ohne laufende Kosten, vollständige Datenkontrolle und die Möglichkeit, eigene Modellvarianten zu trainieren oder zu modifizieren.
Entwickelt wurde das Basismodell von Stability AI in Zusammenarbeit mit Forschern der Universität München und dem Unternehmen Runway ML. Die wissenschaftliche Grundlage bildet die Publikation „High-Resolution Image Synthesis with Latent Diffusion Models" (Rombach et al., 2022), erschienen auf der CVPR-Konferenz.
Erklärung
Das Latent-Diffusion-Prinzip
Frühere Diffusionsmodelle wie DALL-E 1 oder GLIDE arbeiteten direkt im Pixelraum: Rauschen wurde schrittweise aus einem vollständigen Bild entfernt. Das ist rechenintensiv, da jedes Bild bei 512×512 Pixel bereits 786.432 einzelne Werte enthält.
Stable Diffusion löst dieses Problem durch den Latent Space: Ein vortrainierter Variational Autoencoder (VAE) komprimiert das Bild zunächst in eine deutlich kleinere Repräsentation — typischerweise 64×64 bei einem Kompressionsfaktor von 8. Der eigentliche Diffusionsprozess läuft in diesem kompakten latenten Raum, was den Rechenaufwand um den Faktor ~50 reduziert.
Der Diffusionsprozess in zwei Phasen
Forward Process (Training): Einem echten Bild wird schrittweise Gaußsches Rauschen hinzugefügt, bis nur noch reines Rauschen übrig bleibt. Das Modell lernt dabei, diesen Prozess zu invertieren.
Reverse Process (Inferenz): Aus reinem Rauschen entfernt das Modell schrittweise Rauschen, geleitet durch den Textprompt. Nach typischerweise 20–50 Schritten entsteht ein kohärentes Bild.
Text-Konditionierung via CLIP
Den Textprompt verarbeitet ein CLIP-Encoder (Contrastive Language–Image Pre-Training, OpenAI). CLIP wurde auf Hunderten Millionen Bild-Text-Paaren trainiert und kann semantische Beziehungen zwischen Sprache und visuellen Konzepten abbilden. Die resultierenden Text-Embeddings dienen als Konditionierungssignal für das U-Net, das den Rauschentfernungsprozess steuert.
Das U-Net als Herzstück
Das U-Net ist eine spezielle neuronale Netzwerkarchitektur mit Encoder-Decoder-Struktur und Skip-Connections. In Stable Diffusion ist es mit Cross-Attention-Schichten erweitert, die Text-Embeddings in jeden Denoising-Schritt einbeziehen. Das ermöglicht die präzise Steuerung durch Sprache.
Modellgrößen und Hardware
| Modellversion | VRAM-Bedarf | Empfohlene Auflösung |
|---|---|---|
| SD 1.4 / 1.5 | 4 GB | 512×512 px |
| SD 2.0 / 2.1 | 6 GB | 768×768 px |
| SDXL 1.0 | 8–10 GB | 1024×1024 px |
| Flux.1 Dev | 12–16 GB | 1024×1024 px |
Mit 8-Bit-Quantisierung oder fp16-Präzision lassen sich diese Werte erheblich reduzieren.
Schritt-für-Schritt / Einrichtung
Lokale Installation (AUTOMATIC1111 als Beispiel)
- Python 3.10 installieren (Python 3.11+ kann Kompatibilitätsprobleme verursachen)
- Git installieren
- Repository klonen:
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui - Modell-Checkpoint herunterladen (z. B. SD 1.5 von HuggingFace oder Civitai)
- Checkpoint in den Ordner
models/Stable-diffusion/legen webui.bat(Windows) oderwebui.sh(Linux/Mac) starten- Browser öffnen:
http://127.0.0.1:7860
Erste Bildgenerierung
`` Prompt: a photorealistic portrait of a young woman, golden hour lighting, bokeh background, Canon 85mm, professional photography Negative: blurry, deformed, ugly, low quality, watermark Steps: 25 CFG Scale: 7 Sampler: DPM++ 2M Karras Auflösung: 512×768 ``
Beispiele (5 konkrete Anwendungsfälle)
- Konzeptvisualisierung für Medienprojekte: Redaktionen generieren Titelbilder-Mockups für Artikel ohne Stock-Foto-Lizenz. SD erzeugt innerhalb von Sekunden passende Illustrationen.
- Storyboard-Erstellung: Filmproduktionen nutzen SD, um Storyboards zu skizzieren. Mit IP-Adapter kann ein Charakter konsistent über mehrere Szenen hinweg visualisiert werden.
- Produktvisualisierung: E-Commerce-Unternehmen platzieren Produkte in verschiedenen Szenarien — Strandszene, Büroumgebung, festliches Setting — ohne aufwändige Fotoshootings.
- Training eigener Modelle: Illustratoren trainieren LoRA-Modelle auf ihrem persönlichen Stil, um konsistente Illustrationen im eigenen Zeichenstil zu generieren.
- Datensatz-Augmentierung: ML-Forscher erweitern kleine Bilddatensätze durch synthetisch generierte Variationen für das Training von Klassifikationsmodellen.
In der Praxis
Die wichtigsten Parameter für die tägliche Arbeit:
- Steps (Schritte): 20–30 reichen für die meisten Anwendungen. Mehr Schritte bedeuten nicht automatisch bessere Qualität, sondern nur längere Generierungszeit.
- CFG Scale: Werte zwischen 6 und 8 liefern ausgewogene Ergebnisse. Zu hohe Werte (>12) führen zu übersättigten, artifiziellen Bildern.
- Seed: Ein fixer Seed (-1 = zufällig) reproduziert identische Ergebnisse bei gleichen Parametern — wichtig für Iterationen.
- Sampler: DPM++ 2M Karras gilt als Standard für qualitative Ergebnisse in wenigen Schritten.
Ressourcenplanung: Eine NVIDIA-GPU mit mindestens 6 GB VRAM ist empfehlenswert. AMD-GPUs funktionieren über ROCm (Linux) oder DirectML (Windows), mit teils eingeschränkter Performance. Apple Silicon (M1/M2/M3) nutzt Core ML oder MPS-Backend.
Vergleich & Abgrenzung
| Merkmal | Stable Diffusion | Midjourney | DALL-E 3 |
|---|---|---|---|
| Kosten | Kostenlos (lokal) | Ab 10 $/Monat | Per API-Token |
| Datenkontrolle | Vollständig lokal | Cloudbasiert | Cloudbasiert |
| Anpassbarkeit | Hoch (LoRA, Fine-Tuning) | Gering | Mittel |
| Bildqualität (OOTB) | Mittel–hoch | Sehr hoch | Hoch |
| Lernkurve | Steil | Flach | Flach |
| NSFW-Filter | Konfigurierbar | Strikt | Strikt |
SD eignet sich für Nutzer, die maximale Kontrolle, Anpassbarkeit und Datenschutz benötigen. Cloud-Dienste bieten sofort nutzbare, hochqualitative Ergebnisse ohne technischen Aufwand.
Häufige Fragen (FAQ)
F: Welche GPU brauche ich mindestens für Stable Diffusion? Eine NVIDIA-GPU mit 6 GB VRAM (z. B. RTX 3060) reicht für SD 1.5 und viele SDXL-Aufgaben mit fp16. Mit 4 GB ist nur SD 1.5 in reduzierter Auflösung möglich. Für Flux.1 sind 12–16 GB empfehlenswert.
F: Ist Stable Diffusion legal zu nutzen? Die Modelle werden unter der CreativeML OpenRAIL-Lizenz veröffentlicht. Kommerzielle Nutzung ist erlaubt, jedoch gibt es Einschränkungen für bestimmte Inhalte (z. B. sexuelle Inhalte mit Minderjährigen, Täuschung realer Personen). Trainingsdaten-Urheberrechtsfragen sind juristisch noch nicht abschließend geklärt.
Verwandte Einträge
- AUTOMATIC1111 / WebUI — Die meistgenutzte grafische Oberfläche für Stable Diffusion
- ComfyUI — Node-basierte Alternative mit mehr Kontrolle über den Workflow
- Sampler & Scheduler — Welcher Sampler für welchen Anwendungsfall?
Weiterführend
- Rombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. CVPR 2022.
- Stability AI Dokumentation:
- Hugging Face Diffusers Library:
- Stable Diffusion Wiki (Community):
