Stable Diffusion Grundlagen

Stable Diffusion ist ein quelloffenes Latent-Diffusion-Modell zur KI-gestützten Bildsynthese, das lokal auf Consumer-Hardware betrieben werden kann und auf der Forschung von Rombach et al. (2022) basiert.

Rubrik: GenAI & Content Creation · Unterrubrik: Stable Diffusion · Niveau: Fortgeschritten

Was ist Stable Diffusion?

Stable Diffusion ist ein generatives KI-Modell, das aus Texteingaben (Prompts) realistische oder künstlerische Bilder erzeugt. Im Gegensatz zu proprietären Systemen wie Midjourney oder DALL-E ist Stable Diffusion vollständig quelloffen: Modellgewichte, Trainingscode und Architektur sind öffentlich verfügbar. Das ermöglicht lokale Installation auf eigener Hardware ohne laufende Kosten, vollständige Datenkontrolle und die Möglichkeit, eigene Modellvarianten zu trainieren oder zu modifizieren.

Entwickelt wurde das Basismodell von Stability AI in Zusammenarbeit mit Forschern der Universität München und dem Unternehmen Runway ML. Die wissenschaftliche Grundlage bildet die Publikation „High-Resolution Image Synthesis with Latent Diffusion Models" (Rombach et al., 2022), erschienen auf der CVPR-Konferenz.

Erklärung

Das Latent-Diffusion-Prinzip

Frühere Diffusionsmodelle wie DALL-E 1 oder GLIDE arbeiteten direkt im Pixelraum: Rauschen wurde schrittweise aus einem vollständigen Bild entfernt. Das ist rechenintensiv, da jedes Bild bei 512×512 Pixel bereits 786.432 einzelne Werte enthält.

Stable Diffusion löst dieses Problem durch den Latent Space: Ein vortrainierter Variational Autoencoder (VAE) komprimiert das Bild zunächst in eine deutlich kleinere Repräsentation, typischerweise 64×64 bei einem Kompressionsfaktor von 8. Der eigentliche Diffusionsprozess läuft in diesem kompakten latenten Raum, was den Rechenaufwand um den Faktor ~50 reduziert.

Der Diffusionsprozess in zwei Phasen

Forward Process (Training): Einem echten Bild wird schrittweise Gaußsches Rauschen hinzugefügt, bis nur noch reines Rauschen übrig bleibt. Das Modell lernt dabei, diesen Prozess zu invertieren.

Reverse Process (Inferenz): Aus reinem Rauschen entfernt das Modell schrittweise Rauschen, geleitet durch den Textprompt. Nach typischerweise 20–50 Schritten entsteht ein kohärentes Bild.

Text-Konditionierung via CLIP

Den Textprompt verarbeitet ein CLIP-Encoder (Contrastive Language–Image Pre-Training, OpenAI). CLIP wurde auf Hunderten Millionen Bild-Text-Paaren trainiert und kann semantische Beziehungen zwischen Sprache und visuellen Konzepten abbilden. Die resultierenden Text-Embeddings dienen als Konditionierungssignal für das U-Net, das den Rauschentfernungsprozess steuert.

Das U-Net als Herzstück

Das U-Net ist eine spezielle neuronale Netzwerkarchitektur mit Encoder-Decoder-Struktur und Skip-Connections. In Stable Diffusion ist es mit Cross-Attention-Schichten erweitert, die Text-Embeddings in jeden Denoising-Schritt einbeziehen. Das ermöglicht die präzise Steuerung durch Sprache.

Modellgrößen und Hardware

Modellversion	VRAM-Bedarf	Empfohlene Auflösung
SD 1.4 / 1.5	4 GB	512×512 px
SD 2.0 / 2.1	6 GB	768×768 px
SDXL 1.0	8–10 GB	1024×1024 px
Flux.1 Dev	12–16 GB	1024×1024 px

Mit 8-Bit-Quantisierung oder fp16-Präzision lassen sich diese Werte erheblich reduzieren.

Schritt-für-Schritt / Einrichtung

Lokale Installation (AUTOMATIC1111 als Beispiel)

Python 3.10 installieren (Python 3.11+ kann Kompatibilitätsprobleme verursachen)
Git installieren
Repository klonen: git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui
Modell-Checkpoint herunterladen (z. B. SD 1.5 von HuggingFace oder Civitai)
Checkpoint in den Ordner models/Stable-diffusion/ legen
webui.bat (Windows) oder webui.sh (Linux/Mac) starten
Browser öffnen: http://127.0.0.1:7860

Erste Bildgenerierung

`` Prompt: a photorealistic portrait of a young woman, golden hour lighting, bokeh background, Canon 85mm, professional photography Negative: blurry, deformed, ugly, low quality, watermark Steps: 25 CFG Scale: 7 Sampler: DPM++ 2M Karras Auflösung: 512×768 ``

Beispiele (5 konkrete Anwendungsfälle)

Konzeptvisualisierung für Medienprojekte: Redaktionen generieren Titelbilder-Mockups für Artikel ohne Stock-Foto-Lizenz. SD erzeugt innerhalb von Sekunden passende Illustrationen.
Storyboard-Erstellung: Filmproduktionen nutzen SD, um Storyboards zu skizzieren. Mit IP-Adapter kann ein Charakter konsistent über mehrere Szenen hinweg visualisiert werden.
Produktvisualisierung: E-Commerce-Unternehmen platzieren Produkte in verschiedenen Szenarien, Strandszene, Büroumgebung, festliches Setting, ohne aufwändige Fotoshootings.
Training eigener Modelle: Illustratoren trainieren LoRA-Modelle auf ihrem persönlichen Stil, um konsistente Illustrationen im eigenen Zeichenstil zu generieren.
Datensatz-Augmentierung: ML-Forscher erweitern kleine Bilddatensätze durch synthetisch generierte Variationen für das Training von Klassifikationsmodellen.

In der Praxis

Die wichtigsten Parameter für die tägliche Arbeit:

Steps (Schritte): 20–30 reichen für die meisten Anwendungen. Mehr Schritte bedeuten nicht automatisch bessere Qualität, sondern nur längere Generierungszeit.
CFG Scale: Werte zwischen 6 und 8 liefern ausgewogene Ergebnisse. Zu hohe Werte (>12) führen zu übersättigten, artifiziellen Bildern.
Seed: Ein fixer Seed (-1 = zufällig) reproduziert identische Ergebnisse bei gleichen Parametern, wichtig für Iterationen.
Sampler: DPM++ 2M Karras gilt als Standard für qualitative Ergebnisse in wenigen Schritten.

Ressourcenplanung: Eine NVIDIA-GPU mit mindestens 6 GB VRAM ist empfehlenswert. AMD-GPUs funktionieren über ROCm (Linux) oder DirectML (Windows), mit teils eingeschränkter Performance. Apple Silicon (M1/M2/M3) nutzt Core ML oder MPS-Backend.

Vergleich & Abgrenzung

Merkmal	Stable Diffusion	Midjourney	DALL-E 3
Kosten	Kostenlos (lokal)	Ab 10 $/Monat (Basic)	Per API-Token
Datenkontrolle	Vollständig lokal	Cloudbasiert	Cloudbasiert
Anpassbarkeit	Hoch (LoRA, Fine-Tuning)	Gering	Mittel
Bildqualität (OOTB)	Mittel–hoch	Sehr hoch	Hoch
Lernkurve	Steil	Flach	Flach
NSFW-Filter	Konfigurierbar	Strikt	Strikt

SD eignet sich für Nutzer, die maximale Kontrolle, Anpassbarkeit und Datenschutz benötigen. Cloud-Dienste bieten sofort nutzbare, hochqualitative Ergebnisse ohne technischen Aufwand.

Häufige Fragen (FAQ)

F: Welche GPU brauche ich mindestens für Stable Diffusion? Eine NVIDIA-GPU mit 6 GB VRAM (z. B. RTX 3060) reicht für SD 1.5 und viele SDXL-Aufgaben mit fp16. Mit 4 GB ist nur SD 1.5 in reduzierter Auflösung möglich. Für Flux.1 sind 12–16 GB empfehlenswert.

F: Ist Stable Diffusion legal zu nutzen? Die Modelle werden unter der CreativeML OpenRAIL-Lizenz veröffentlicht. Kommerzielle Nutzung ist erlaubt, jedoch gibt es Einschränkungen für bestimmte Inhalte (z. B. sexuelle Inhalte mit Minderjährigen, Täuschung realer Personen). Trainingsdaten-Urheberrechtsfragen sind juristisch noch nicht abschließend geklärt.

Weiterführend

Rombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. CVPR 2022.
Stability AI Dokumentation:
Hugging Face Diffusers Library:
Stable Diffusion Wiki (Community):

Was ist Stable Diffusion?

Erklärung

Das Latent-Diffusion-Prinzip

Der Diffusionsprozess in zwei Phasen

Text-Konditionierung via CLIP

Das U-Net als Herzstück

Modellgrößen und Hardware

Schritt-für-Schritt / Einrichtung

Lokale Installation (AUTOMATIC1111 als Beispiel)

Erste Bildgenerierung

Beispiele (5 konkrete Anwendungsfälle)

In der Praxis

Vergleich & Abgrenzung

Häufige Fragen (FAQ)

Verwandte Einträge

Weiterführend

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.

Platz beim Infotag reservieren

Stable Diffusion Grundlagen

Was ist Stable Diffusion?

Erklärung

Das Latent-Diffusion-Prinzip

Der Diffusionsprozess in zwei Phasen

Text-Konditionierung via CLIP

Das U-Net als Herzstück

Modellgrößen und Hardware

Schritt-für-Schritt / Einrichtung

Lokale Installation (AUTOMATIC1111 als Beispiel)

Erste Bildgenerierung

Beispiele (5 konkrete Anwendungsfälle)

In der Praxis

Vergleich & Abgrenzung

Häufige Fragen (FAQ)

Verwandte Einträge

Weiterführend

Sei am Mittwoch dabei.Bring Eltern oder Freunde mit.

Platz beim Infotag reservieren

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.