← Zurück zu GenAI & Content Creation
Stable Diffusion ist ein quelloffenes Latent-Diffusion-Modell zur KI-gestützten Bildsynthese, das lokal auf Consumer-Hardware betrieben werden kann und auf der Forschung von Rombach et al. (2022) basiert.

Rubrik: GenAI & Content Creation · Unterrubrik: Stable Diffusion · Niveau: Fortgeschritten


Was ist Stable Diffusion?

Stable Diffusion ist ein generatives KI-Modell, das aus Texteingaben (Prompts) realistische oder künstlerische Bilder erzeugt. Im Gegensatz zu proprietären Systemen wie Midjourney oder DALL-E ist Stable Diffusion vollständig quelloffen: Modellgewichte, Trainingscode und Architektur sind öffentlich verfügbar. Das ermöglicht lokale Installation auf eigener Hardware ohne laufende Kosten, vollständige Datenkontrolle und die Möglichkeit, eigene Modellvarianten zu trainieren oder zu modifizieren.

Entwickelt wurde das Basismodell von Stability AI in Zusammenarbeit mit Forschern der Universität München und dem Unternehmen Runway ML. Die wissenschaftliche Grundlage bildet die Publikation „High-Resolution Image Synthesis with Latent Diffusion Models" (Rombach et al., 2022), erschienen auf der CVPR-Konferenz.


Erklärung

Das Latent-Diffusion-Prinzip

Frühere Diffusionsmodelle wie DALL-E 1 oder GLIDE arbeiteten direkt im Pixelraum: Rauschen wurde schrittweise aus einem vollständigen Bild entfernt. Das ist rechenintensiv, da jedes Bild bei 512×512 Pixel bereits 786.432 einzelne Werte enthält.

Stable Diffusion löst dieses Problem durch den Latent Space: Ein vortrainierter Variational Autoencoder (VAE) komprimiert das Bild zunächst in eine deutlich kleinere Repräsentation — typischerweise 64×64 bei einem Kompressionsfaktor von 8. Der eigentliche Diffusionsprozess läuft in diesem kompakten latenten Raum, was den Rechenaufwand um den Faktor ~50 reduziert.

Der Diffusionsprozess in zwei Phasen

Forward Process (Training): Einem echten Bild wird schrittweise Gaußsches Rauschen hinzugefügt, bis nur noch reines Rauschen übrig bleibt. Das Modell lernt dabei, diesen Prozess zu invertieren.

Reverse Process (Inferenz): Aus reinem Rauschen entfernt das Modell schrittweise Rauschen, geleitet durch den Textprompt. Nach typischerweise 20–50 Schritten entsteht ein kohärentes Bild.

Text-Konditionierung via CLIP

Den Textprompt verarbeitet ein CLIP-Encoder (Contrastive Language–Image Pre-Training, OpenAI). CLIP wurde auf Hunderten Millionen Bild-Text-Paaren trainiert und kann semantische Beziehungen zwischen Sprache und visuellen Konzepten abbilden. Die resultierenden Text-Embeddings dienen als Konditionierungssignal für das U-Net, das den Rauschentfernungsprozess steuert.

Das U-Net als Herzstück

Das U-Net ist eine spezielle neuronale Netzwerkarchitektur mit Encoder-Decoder-Struktur und Skip-Connections. In Stable Diffusion ist es mit Cross-Attention-Schichten erweitert, die Text-Embeddings in jeden Denoising-Schritt einbeziehen. Das ermöglicht die präzise Steuerung durch Sprache.

Modellgrößen und Hardware

ModellversionVRAM-BedarfEmpfohlene Auflösung
SD 1.4 / 1.54 GB512×512 px
SD 2.0 / 2.16 GB768×768 px
SDXL 1.08–10 GB1024×1024 px
Flux.1 Dev12–16 GB1024×1024 px

Mit 8-Bit-Quantisierung oder fp16-Präzision lassen sich diese Werte erheblich reduzieren.


Schritt-für-Schritt / Einrichtung

Lokale Installation (AUTOMATIC1111 als Beispiel)

  1. Python 3.10 installieren (Python 3.11+ kann Kompatibilitätsprobleme verursachen)
  2. Git installieren
  3. Repository klonen: git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui
  4. Modell-Checkpoint herunterladen (z. B. SD 1.5 von HuggingFace oder Civitai)
  5. Checkpoint in den Ordner models/Stable-diffusion/ legen
  6. webui.bat (Windows) oder webui.sh (Linux/Mac) starten
  7. Browser öffnen: http://127.0.0.1:7860

Erste Bildgenerierung

`` Prompt: a photorealistic portrait of a young woman, golden hour lighting, bokeh background, Canon 85mm, professional photography Negative: blurry, deformed, ugly, low quality, watermark Steps: 25 CFG Scale: 7 Sampler: DPM++ 2M Karras Auflösung: 512×768 ``


Beispiele (5 konkrete Anwendungsfälle)

  1. Konzeptvisualisierung für Medienprojekte: Redaktionen generieren Titelbilder-Mockups für Artikel ohne Stock-Foto-Lizenz. SD erzeugt innerhalb von Sekunden passende Illustrationen.
  2. Storyboard-Erstellung: Filmproduktionen nutzen SD, um Storyboards zu skizzieren. Mit IP-Adapter kann ein Charakter konsistent über mehrere Szenen hinweg visualisiert werden.
  3. Produktvisualisierung: E-Commerce-Unternehmen platzieren Produkte in verschiedenen Szenarien — Strandszene, Büroumgebung, festliches Setting — ohne aufwändige Fotoshootings.
  4. Training eigener Modelle: Illustratoren trainieren LoRA-Modelle auf ihrem persönlichen Stil, um konsistente Illustrationen im eigenen Zeichenstil zu generieren.
  5. Datensatz-Augmentierung: ML-Forscher erweitern kleine Bilddatensätze durch synthetisch generierte Variationen für das Training von Klassifikationsmodellen.

In der Praxis

Die wichtigsten Parameter für die tägliche Arbeit:

  • Steps (Schritte): 20–30 reichen für die meisten Anwendungen. Mehr Schritte bedeuten nicht automatisch bessere Qualität, sondern nur längere Generierungszeit.
  • CFG Scale: Werte zwischen 6 und 8 liefern ausgewogene Ergebnisse. Zu hohe Werte (>12) führen zu übersättigten, artifiziellen Bildern.
  • Seed: Ein fixer Seed (-1 = zufällig) reproduziert identische Ergebnisse bei gleichen Parametern — wichtig für Iterationen.
  • Sampler: DPM++ 2M Karras gilt als Standard für qualitative Ergebnisse in wenigen Schritten.

Ressourcenplanung: Eine NVIDIA-GPU mit mindestens 6 GB VRAM ist empfehlenswert. AMD-GPUs funktionieren über ROCm (Linux) oder DirectML (Windows), mit teils eingeschränkter Performance. Apple Silicon (M1/M2/M3) nutzt Core ML oder MPS-Backend.


Vergleich & Abgrenzung

MerkmalStable DiffusionMidjourneyDALL-E 3
KostenKostenlos (lokal)Ab 10 $/MonatPer API-Token
DatenkontrolleVollständig lokalCloudbasiertCloudbasiert
AnpassbarkeitHoch (LoRA, Fine-Tuning)GeringMittel
Bildqualität (OOTB)Mittel–hochSehr hochHoch
LernkurveSteilFlachFlach
NSFW-FilterKonfigurierbarStriktStrikt

SD eignet sich für Nutzer, die maximale Kontrolle, Anpassbarkeit und Datenschutz benötigen. Cloud-Dienste bieten sofort nutzbare, hochqualitative Ergebnisse ohne technischen Aufwand.


Häufige Fragen (FAQ)

F: Welche GPU brauche ich mindestens für Stable Diffusion? Eine NVIDIA-GPU mit 6 GB VRAM (z. B. RTX 3060) reicht für SD 1.5 und viele SDXL-Aufgaben mit fp16. Mit 4 GB ist nur SD 1.5 in reduzierter Auflösung möglich. Für Flux.1 sind 12–16 GB empfehlenswert.

F: Ist Stable Diffusion legal zu nutzen? Die Modelle werden unter der CreativeML OpenRAIL-Lizenz veröffentlicht. Kommerzielle Nutzung ist erlaubt, jedoch gibt es Einschränkungen für bestimmte Inhalte (z. B. sexuelle Inhalte mit Minderjährigen, Täuschung realer Personen). Trainingsdaten-Urheberrechtsfragen sind juristisch noch nicht abschließend geklärt.


Verwandte Einträge


Weiterführend

  • Rombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. CVPR 2022.
  • Stability AI Dokumentation:
  • Hugging Face Diffusers Library:
  • Stable Diffusion Wiki (Community):
← Zurück zu GenAI & Content Creation
Infotag · 13. Mai · 15:00 Uhr · Vor Ort

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.

Ein halber Nachmittag, der dir drei Jahre Klarheit bringen kann. Kostenlos, unverbindlich, ehrlich.

  • Rundgang durch Studios, Schnitträume und Tonstudio
  • Echte Absolventenfilme sehen
  • 1:1-Beratung zu Bewerbung & BAföG
  • Studierende direkt fragen
  • Kaffee, kein Sales-Pitch
  • Auch online möglich

Platz beim Infotag reservieren

Dauert 30 Sekunden. Bestätigung per E-Mail.
100 % kostenlos · keine Verpflichtung · jederzeit absagbar
Stable Diffusion Grundlagen — Wiki | Lazi Akademie | Lazi Akademie Esslingen