Stable Diffusion XL (SDXL)

Stable Diffusion XL (SDXL) ist die von Stability AI 2023 veröffentlichte Nachfolgegeneration von SD 1.x/2.x mit nativ 1024×1024 Pixel Auflösung, einem Zwei-Modell-Ansatz (Base + Refiner) und deutlich verbesserter Bildkomposition.

Rubrik: GenAI & Content Creation · Unterrubrik: Stable Diffusion · Niveau: Fortgeschritten

Was ist SDXL?

SDXL 1.0 wurde im Juli 2023 von Stability AI veröffentlicht und markiert einen erheblichen Qualitätssprung gegenüber den Vorgängermodellen. Die wichtigsten Neuerungen: Das Modell arbeitet nativ in 1024×1024 Pixel statt 512×512, nutzt ein dreifach größeres U-Net als SD 1.5, führt ein zweistufiges Base+Refiner-System ein und integriert verbesserte Text-Encoder-Architekturen.

Die Forschungsgrundlage liefert der Paper „SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis" (Podell et al., 2023). Gewichte sind unter der CreativeML OpenRAIL++-Lizenz frei verfügbar.

Erklärung

Architektur-Unterschiede zu SD 1.5

U-Net-Größe: SDXL nutzt ein U-Net mit 2,6 Milliarden Parametern, dreimal so groß wie SD 1.5 (860 Mio. Parameter). Das ermöglicht feinere semantische Repräsentationen.

Dual-CLIP-Encoder: SDXL kombiniert zwei Text-Encoder: OpenAI CLIP ViT-L und OpenCLIP ViT-bigG. Das verbessert das Textverständnis erheblich, insbesondere für komplexe Szenen-Kompositionen.

Auflösung und Conditioning: SDXL ist auf 1024×1024 trainiert, unterstützt aber auch nicht-quadratische Formate wie 1152×896 (Portrait) oder 1216×832 (Landscape). Empfohlene Auflösungen folgen einem Raster mit festen Seitenverhältnissen.

Das Base+Refiner-System

SDXL besteht aus zwei separaten Modellen:

Base-Modell: Generiert das initiale Latent bei hohem Rauschpegel. Zuständig für Gesamtkomposition, Farbgebung, grobe Strukturen. Typische Parameter: 80–100% der Steps im Base-Modell.

Refiner-Modell: Ein kleineres, auf niedrige Rauschniveaus spezialisiertes Modell. Verfeinert Details, Texturen und scharfe Kanten. Typische Parameter: 20–30% der Steps im Refiner, Denoising-Start bei 0.8.

In ComfyUI wird dieses zweistufige System als sauberer Node-Workflow abgebildet. In AUTOMATIC1111 ist der Refiner über die SDXL-spezifische Einstellung „Refiner" im txt2img-Tab integriert.

SDXL-VAE

SDXL nutzt einen neuen VAE, der gegenüber dem SD-1.x-VAE verbesserte Farbtreue und weniger Artefakte liefert. Wichtig: Der SDXL-VAE muss explizit geladen werden, das Basismodell enthält ihn, aber FP16-Qualitätsprobleme entstehen ohne den separat heruntergeladenen FP16-Fix-VAE.

SDXL-Turbo und SDXL-Lightning

SDXL-Turbo (Stability AI, 2023): Adversarial Diffusion Distillation, Bilder in 1–4 Steps, deutlich weniger Qualität als volles SDXL.

SDXL-Lightning (ByteDance, 2024): Konsistenzmodell-Destillation, 4–8 Steps mit hoher Qualität. Breite Community-Adoption.

Hyper-SDXL: Schritt-Destillation für 4-Step-Inferenz bei guter Qualität.

Schritt-für-Schritt / Einrichtung

SDXL in AUTOMATIC1111

```

Settings → User Interface → Quick Settings List: sdmodelcheckpoint, sd_vae (beide als Quick-Settings hinzufügen)

Sampler: DPM++ 2M Karras oder Euler Steps: 30–40 (Base), +10 (Refiner) CFG Scale: 6–8 Auflösung: 1024×1024 (oder andere SDXL-empfohlene Größen) Refiner: aktivieren, Switch at: 0.8 ```

Empfohlene SDXL-Auflösungen

Format	Breite	Höhe	Pixel
Quadrat	1024	1024	1.048.576
Portrait	832	1216	1.011.712
Landscape	1216	832	1.011.712
Breitbild	1344	768	1.032.192
Ultra-Wide	1536	640	983.040

Wichtig: Die Gesamtpixelzahl sollte nahe 1 Million liegen. Stark abweichende Auflösungen führen zu schlechter Komposition.

Beispiele (5 konkrete Anwendungsfälle)

Hochwertige Pressebilder: Nachrichtenagenturen generieren begleitende Illustrationen in 1024×1024 mit SDXL, die native Auflösung reicht für Webpublikationen direkt aus.
Magazin-Cover-Konzepte: Der verbesserte CLIP-Encoder ermöglicht präzisere Umsetzung komplexer Szenen: „A woman reading a newspaper in a rainy Tokyo street, neon reflections, editorial photography style" wird mit SDXL erheblich besser umgesetzt als mit SD 1.5.
Text in Bildern: SDXL zeigt deutlich verbesserte Textwiedergabe, kurze Worte auf Schildern, Logos oder Überschriften gelingen häufig lesbar. SD 1.5 scheiterte hier fast vollständig.
LoRA-Training für SDXL: Medienhäuser trainieren SDXL-LoRAs auf ihrem Corporate Design, Farben, Typographie-Stil, spezifische Bildsprache werden ins Modell destilliert.
Produkt-Shooting-Ersatz: E-Commerce-Betreiber generieren Produktbilder in 1024×1024 mit SDXL und verschiedenen Hintergründen, Qualität reicht für Webshops aus.

In der Praxis

VRAM-Anforderungen

Konfiguration	VRAM
Base only, FP16	6–8 GB
Base + Refiner, FP16	10–12 GB
Base + Refiner, 8-bit	8 GB
SDXL-Turbo (4 Steps)	6 GB

Für VRAM-Engpässe: --medvram-sdxl als Launch-Argument in A1111. Alternativ: SDXL-Lightning oder Hyper-SDXL als 4-Step-Destillation.

SDXL-Community-Modelle (Civitai)

Juggernaut XL, RealVisXL, DreamShaper XL und Playground v2.5 basieren auf SDXL-Fine-Tuning und erreichen teils bessere Fotorealismus- oder Illustrationsqualität als das Basismodell.

Vergleich & Abgrenzung

Merkmal	SD 1.5	SDXL	Flux.1 Dev
Native Auflösung	512 px	1024 px	1024 px
Parameter (U-Net)	860 Mio.	2,6 Mrd.	12 Mrd.
VRAM-Bedarf	4–6 GB	8–12 GB	12–16 GB
Textwiedergabe	Schlecht	Mittel	Gut
Community-Modelle	Sehr viele	Viele	Wachsend
Speed (Steps)	Schnell	Mittel	Langsamer

Häufige Fragen (FAQ)

F: Brauche ich Base und Refiner zwingend zusammen? Nein. Das Base-Modell allein liefert bereits gute Ergebnisse. Der Refiner verbessert Feindetails merklich, verdoppelt aber die Generierungszeit. Für schnelle Iterationen wird oft nur Base genutzt; für finale Bilder empfiehlt sich der zweistufige Prozess.

F: Warum sind meine SDXL-Bilder unscharf oder ausgewaschen? Häufigste Ursachen: (1) Falscher VAE, den SDXL-spezifischen VAE laden oder --no-half-vae nutzen; (2) Zu niedrige CFG Scale (<5), auf 6–8 erhöhen; (3) Falsche Auflösung, nur SDXL-kompatible Auflösungen verwenden (Gesamt-Pixel ca. 1 Mio.).

Weiterführend

Podell, D. et al. (2023). SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis.
Stability AI SDXL:
Hugging Face SDXL:
Civitai SDXL Modelle:

Was ist SDXL?

Erklärung

Architektur-Unterschiede zu SD 1.5

Das Base+Refiner-System

SDXL-VAE

SDXL-Turbo und SDXL-Lightning

Schritt-für-Schritt / Einrichtung

SDXL in AUTOMATIC1111

Empfohlene SDXL-Auflösungen

Beispiele (5 konkrete Anwendungsfälle)

In der Praxis

VRAM-Anforderungen

SDXL-Community-Modelle (Civitai)

Vergleich & Abgrenzung

Häufige Fragen (FAQ)

Verwandte Einträge

Weiterführend

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.

Platz beim Infotag reservieren

Stable Diffusion XL (SDXL)

Was ist SDXL?

Erklärung

Architektur-Unterschiede zu SD 1.5

Das Base+Refiner-System

SDXL-VAE

SDXL-Turbo und SDXL-Lightning

Schritt-für-Schritt / Einrichtung

SDXL in AUTOMATIC1111

Empfohlene SDXL-Auflösungen

Beispiele (5 konkrete Anwendungsfälle)

In der Praxis

VRAM-Anforderungen

SDXL-Community-Modelle (Civitai)

Vergleich & Abgrenzung

Häufige Fragen (FAQ)

Verwandte Einträge

Weiterführend

Sei am Mittwoch dabei.Bring Eltern oder Freunde mit.

Platz beim Infotag reservieren

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.