Stable Diffusion XL (SDXL) ist die von Stability AI 2023 veröffentlichte Nachfolgegeneration von SD 1.x/2.x mit nativ 1024×1024 Pixel Auflösung, einem Zwei-Modell-Ansatz (Base + Refiner) und deutlich verbesserter Bildkomposition.
Rubrik: GenAI & Content Creation · Unterrubrik: Stable Diffusion · Niveau: Fortgeschritten
Was ist SDXL?
SDXL 1.0 wurde im Juli 2023 von Stability AI veröffentlicht und markiert einen erheblichen Qualitätssprung gegenüber den Vorgängermodellen. Die wichtigsten Neuerungen: Das Modell arbeitet nativ in 1024×1024 Pixel statt 512×512, nutzt ein dreifach größeres U-Net als SD 1.5, führt ein zweistufiges Base+Refiner-System ein und integriert verbesserte Text-Encoder-Architekturen.
Die Forschungsgrundlage liefert der Paper „SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis" (Podell et al., 2023). Gewichte sind unter der CreativeML OpenRAIL++-Lizenz frei verfügbar.
Erklärung
Architektur-Unterschiede zu SD 1.5
U-Net-Größe: SDXL nutzt ein U-Net mit 2,6 Milliarden Parametern — dreimal so groß wie SD 1.5 (860 Mio. Parameter). Das ermöglicht feinere semantische Repräsentationen.
Dual-CLIP-Encoder: SDXL kombiniert zwei Text-Encoder: OpenAI CLIP ViT-L und OpenCLIP ViT-bigG. Das verbessert das Textverständnis erheblich, insbesondere für komplexe Szenen-Kompositionen.
Auflösung und Conditioning: SDXL ist auf 1024×1024 trainiert, unterstützt aber auch nicht-quadratische Formate wie 1152×896 (Portrait) oder 1216×832 (Landscape). Empfohlene Auflösungen folgen einem Raster mit festen Seitenverhältnissen.
Das Base+Refiner-System
SDXL besteht aus zwei separaten Modellen:
Base-Modell: Generiert das initiale Latent bei hohem Rauschpegel. Zuständig für Gesamtkomposition, Farbgebung, grobe Strukturen. Typische Parameter: 80–100% der Steps im Base-Modell.
Refiner-Modell: Ein kleineres, auf niedrige Rauschniveaus spezialisiertes Modell. Verfeinert Details, Texturen und scharfe Kanten. Typische Parameter: 20–30% der Steps im Refiner, Denoising-Start bei 0.8.
In ComfyUI wird dieses zweistufige System als sauberer Node-Workflow abgebildet. In AUTOMATIC1111 ist der Refiner über die SDXL-spezifische Einstellung „Refiner" im txt2img-Tab integriert.
SDXL-VAE
SDXL nutzt einen neuen VAE, der gegenüber dem SD-1.x-VAE verbesserte Farbtreue und weniger Artefakte liefert. Wichtig: Der SDXL-VAE muss explizit geladen werden — das Basismodell enthält ihn, aber FP16-Qualitätsprobleme entstehen ohne den separat heruntergeladenen FP16-Fix-VAE.
SDXL-Turbo und SDXL-Lightning
SDXL-Turbo (Stability AI, 2023): Adversarial Diffusion Distillation — Bilder in 1–4 Steps, deutlich weniger Qualität als volles SDXL.
SDXL-Lightning (ByteDance, 2024): Konsistenzmodell-Destillation — 4–8 Steps mit hoher Qualität. Breite Community-Adoption.
Hyper-SDXL: Schritt-Destillation für 4-Step-Inferenz bei guter Qualität.
Schritt-für-Schritt / Einrichtung
SDXL in AUTOMATIC1111
```
Settings → User Interface → Quick Settings List: sdmodelcheckpoint, sd_vae (beide als Quick-Settings hinzufügen)
Sampler: DPM++ 2M Karras oder Euler Steps: 30–40 (Base), +10 (Refiner) CFG Scale: 6–8 Auflösung: 1024×1024 (oder andere SDXL-empfohlene Größen) Refiner: aktivieren, Switch at: 0.8 ```
Empfohlene SDXL-Auflösungen
| Format | Breite | Höhe | Pixel |
|---|---|---|---|
| Quadrat | 1024 | 1024 | 1.048.576 |
| Portrait | 832 | 1216 | 1.011.712 |
| Landscape | 1216 | 832 | 1.011.712 |
| Breitbild | 1344 | 768 | 1.032.192 |
| Ultra-Wide | 1536 | 640 | 983.040 |
Wichtig: Die Gesamtpixelzahl sollte nahe 1 Million liegen. Stark abweichende Auflösungen führen zu schlechter Komposition.
Beispiele (5 konkrete Anwendungsfälle)
- Hochwertige Pressebilder: Nachrichtenagenturen generieren begleitende Illustrationen in 1024×1024 mit SDXL — die native Auflösung reicht für Webpublikationen direkt aus.
- Magazin-Cover-Konzepte: Der verbesserte CLIP-Encoder ermöglicht präzisere Umsetzung komplexer Szenen: „A woman reading a newspaper in a rainy Tokyo street, neon reflections, editorial photography style" wird mit SDXL erheblich besser umgesetzt als mit SD 1.5.
- Text in Bildern: SDXL zeigt deutlich verbesserte Textwiedergabe — kurze Worte auf Schildern, Logos oder Überschriften gelingen häufig lesbar. SD 1.5 scheiterte hier fast vollständig.
- LoRA-Training für SDXL: Medienhäuser trainieren SDXL-LoRAs auf ihrem Corporate Design — Farben, Typographie-Stil, spezifische Bildsprache werden ins Modell destilliert.
- Produkt-Shooting-Ersatz: E-Commerce-Betreiber generieren Produktbilder in 1024×1024 mit SDXL und verschiedenen Hintergründen — Qualität reicht für Webshops aus.
In der Praxis
VRAM-Anforderungen
| Konfiguration | VRAM |
|---|---|
| Base only, FP16 | 6–8 GB |
| Base + Refiner, FP16 | 10–12 GB |
| Base + Refiner, 8-bit | 8 GB |
| SDXL-Turbo (4 Steps) | 6 GB |
Für VRAM-Engpässe: --medvram-sdxl als Launch-Argument in A1111. Alternativ: SDXL-Lightning oder Hyper-SDXL als 4-Step-Destillation.
SDXL-Community-Modelle (Civitai)
Juggernaut XL, RealVisXL, DreamShaper XL und Playground v2.5 basieren auf SDXL-Fine-Tuning und erreichen teils bessere Fotorealismus- oder Illustrationsqualität als das Basismodell.
Vergleich & Abgrenzung
| Merkmal | SD 1.5 | SDXL | Flux.1 Dev |
|---|---|---|---|
| Native Auflösung | 512 px | 1024 px | 1024 px |
| Parameter (U-Net) | 860 Mio. | 2,6 Mrd. | 12 Mrd. |
| VRAM-Bedarf | 4–6 GB | 8–12 GB | 12–16 GB |
| Textwiedergabe | Schlecht | Mittel | Gut |
| Community-Modelle | Sehr viele | Viele | Wachsend |
| Speed (Steps) | Schnell | Mittel | Langsamer |
Häufige Fragen (FAQ)
F: Brauche ich Base und Refiner zwingend zusammen? Nein. Das Base-Modell allein liefert bereits gute Ergebnisse. Der Refiner verbessert Feindetails merklich, verdoppelt aber die Generierungszeit. Für schnelle Iterationen wird oft nur Base genutzt; für finale Bilder empfiehlt sich der zweistufige Prozess.
F: Warum sind meine SDXL-Bilder unscharf oder ausgewaschen? Häufigste Ursachen: (1) Falscher VAE — den SDXL-spezifischen VAE laden oder --no-half-vae nutzen; (2) Zu niedrige CFG Scale (<5) — auf 6–8 erhöhen; (3) Falsche Auflösung — nur SDXL-kompatible Auflösungen verwenden (Gesamt-Pixel ca. 1 Mio.).
Verwandte Einträge
- Flux — Die nächste Modellgeneration von Black Forest Labs
- VAE — Warum der richtige VAE für SDXL entscheidend ist
- ComfyUI Workflows — Standard-SDXL-Base+Refiner-Workflow
Weiterführend
- Podell, D. et al. (2023). SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis.
- Stability AI SDXL:
- Hugging Face SDXL:
- Civitai SDXL Modelle:
