← Zurück zu GenAI & Content Creation
SDXL (Stable Diffusion XL) ist ein 2023 von Stability AI veröffentlichtes Diffusionsmodell mit nativer 1024×1024-Auflösung, zweistufiger Base-Refiner-Architektur und deutlich verbesserter Prompt-Treue gegenüber Stable Diffusion 1.5.

Rubrik: GenAI & Content Creation · Unterrubrik: Stable Diffusion · Niveau: Fortgeschritten Synonyme / Auch bekannt als: Stable Diffusion XL, SD XL, SDXL 1.0, SDXL Base, SDXL Refiner

Was ist SDXL?

SDXL ist die XL-Generation der Stable-Diffusion-Modellreihe von Stability AI. Sie wurde im Juli 2023 als Open-Weights-Modell veröffentlicht, generiert Bilder nativ in 1024×1024 Pixel und nutzt eine zweistufige Pipeline aus Base-Modell und optionalem Refiner. Im Vergleich zu Stable Diffusion 1.5 (512 px, 0.98 Mrd. Parameter) hat SDXL Base etwa 3,5 Mrd. Parameter und versteht komplexere Prompts, Komposition und Typografie deutlich besser.

Erklärung

SDXL besteht aus drei Komponenten: einem Text-Encoder-Stack (OpenCLIP-ViT/G + CLIP-ViT/L), dem Base-UNet mit 2,6 Mrd. Parametern und einem Refiner-UNet, das auf hohe Detailtiefe in den letzten Denoising-Schritten spezialisiert ist. Die zwei Text-Encoder analysieren den Prompt parallel und liefern dem UNet reichere semantische Einbettungen — daher die spürbar bessere Prompt-Treue.

Architektonisch nutzt SDXL einen größeren UNet mit mehr Cross-Attention-Layern und ein neues Conditioning auf Bildauflösung und Crop: Während des Trainings lernte das Modell, mit verschiedenen Bildgrößen und Beschnitt-Offsets umzugehen, was Artefakte an Bildrändern reduziert. SDXL ist außerdem auf Aspect Ratios trainiert, die von 1024×1024 abweichen — gängige Buckets sind 1152×896, 896×1152, 1216×832, 832×1216, 1344×768 und 768×1344. Native Auflösungen außerhalb dieser Buckets liefern oft schlechtere Ergebnisse.

Der Refiner ist ein separates Modell, das in den letzten 20–30 % der Denoising-Schritte übernimmt und feine Details (Haut, Stoff, Haare) verbessert. In der Praxis ist der Refiner seit Mitte 2024 oft optional: Viele Community-Checkpoints wie „Juggernaut XL", „RealVisXL", „DreamShaper XL" oder „Pony Diffusion XL" haben den Refiner-Schritt in das Base-Modell integriert. SDXL ist Grundlage für SDXL Turbo, SDXL Lightning (Few-Step-Modelle) und zahlreiche LoRAs und ControlNets.

Beispiele

  • Beispiel 1 – Werbefotografie: Prompt „studio product photography of a glass perfume bottle, soft rim light, marble surface, 85mm lens, f/2.8" bei 1024×1024 — SDXL liefert reflektierende Oberflächen und realistisches Bokeh.
  • Beispiel 2 – Editorial-Portrait: Prompt „editorial portrait, woman, freckles, natural skin texture, Hasselblad, beauty dish lighting" in 832×1216 (Hochformat).
  • Beispiel 3 – Architekturvisualisierung: SDXL mit ControlNet-Depth aus einem SketchUp-Render erzeugt fotorealistische Innenraum-Renderings.
  • Beispiel 4 – Logo-/Typo-Konzepte: SDXL kann lesbare Wörter bis ca. 6–8 Buchstaben generieren — geeignet für Konzeptphasen, nicht für finale Logos.
  • Beispiel 5 – Stylized Illustration: Mit „Pony Diffusion XL" oder Anime-LoRAs entstehen konsistente, stilisierte Illustrationen für Editorial oder Game-Art.
  • Beispiel 6 – Filmstill-Look: Prompt mit „cinematic, anamorphic, teal and orange grading, 35mm film grain" reproduziert Filmstill-Ästhetik.

In der Praxis

SDXL läuft in AUTOMATIC1111, ComfyUI, InvokeAI, Forge und Fooocus. Mindestens 8 GB VRAM sind sinnvoll, 12 GB für komfortables Arbeiten, 24 GB für Training. Empfohlene Sampler: DPM++ 2M Karras oder DPM++ 3M SDE mit 25–35 Steps. CFG Scale typisch 5–8 (niedriger als bei SD 1.5). Negative Prompts sind bei SDXL weniger kritisch als bei SD 1.5 — oft reichen kurze Negativ-Listen oder ein vortrainiertes Negative-Embedding. Für maximale Qualität: Base-Checkpoint + passende SDXL-LoRA (Stil) + ControlNet-XL (Komposition) + optional Refiner oder Hi-Res-Fix bei 1.5×. Wer Geschwindigkeit braucht, nutzt SDXL Turbo (1–4 Steps) oder Lightning (2–8 Steps).

Vergleich & Abgrenzung

MerkmalSD 1.5SDXLFLUX.1
Native Auflösung512×5121024×10241024×1024
Parameter (UNet)0,98 Mrd.2,6 Mrd.12 Mrd.
Prompt-TreueMittelGutSehr gut
Typografie im BildSchlechtBrauchbarSehr gut
LoRA-ÖkosystemRiesigGroßWachsend
VRAM-Bedarf4–6 GB8–12 GB12–24 GB

Häufige Fragen (FAQ)

Brauche ich den SDXL Refiner? Bei dem offiziellen Stability-Base-Modell empfohlen für die letzten ~20 % der Steps. Bei modernen Community-Checkpoints (Juggernaut XL, RealVisXL ab v3, DreamShaper XL Turbo) ist der Refiner in der Regel überflüssig und kann übersprungen werden. Der Refiner kostet zusätzliche Zeit und VRAM.

Warum sind meine SDXL-Bilder unscharf oder „weich"? Häufigste Ursachen: falsche Auflösung (z. B. 512×512 statt eines SDXL-Buckets), zu wenig Sampling-Steps (<20), CFG zu niedrig (<4) oder ein generischer SDXL-Base-Checkpoint ohne Stil-Schärfung. Lösung: einen Realistic-Vision-XL- oder Juggernaut-XL-Checkpoint nutzen, 28–32 Steps bei DPM++ 2M Karras, CFG 6, und Hi-Res-Fix mit 1.5× Upscaling.

Funktionieren SD-1.5-LoRAs mit SDXL? Nein. LoRAs sind an die UNet-Architektur ihres Basismodells gebunden. SD-1.5-LoRAs sind mit SDXL inkompatibel und umgekehrt. Beim LoRA-Download immer prüfen, ob es als „SD 1.5", „SDXL", „Pony", „FLUX" o. ä. markiert ist.

Weiterführend

  • Podell, Dustin et al. (2023): SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis. arXiv:2307.01952
  • Stability AI (2023): Stable Diffusion XL 1.0 Release Notes. stability.ai/news/stable-diffusion-sdxl-1-announcement
  • Hugging Face (laufend): stabilityai/stable-diffusion-xl-base-1.0 Model Card. huggingface.co
← Zurück zu GenAI & Content Creation
Infotag · 13. Mai · 15:00 Uhr · Vor Ort

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.

Ein halber Nachmittag, der dir drei Jahre Klarheit bringen kann. Kostenlos, unverbindlich, ehrlich.

  • Rundgang durch Studios, Schnitträume und Tonstudio
  • Echte Absolventenfilme sehen
  • 1:1-Beratung zu Bewerbung & BAföG
  • Studierende direkt fragen
  • Kaffee, kein Sales-Pitch
  • Auch online möglich

Platz beim Infotag reservieren

Dauert 30 Sekunden. Bestätigung per E-Mail.
100 % kostenlos · keine Verpflichtung · jederzeit absagbar