← Zurück zu GenAI & Content Creation
Stable Diffusion XL (SDXL) ist die von Stability AI 2023 veröffentlichte Nachfolgegeneration von SD 1.x/2.x mit nativ 1024×1024 Pixel Auflösung, einem Zwei-Modell-Ansatz (Base + Refiner) und deutlich verbesserter Bildkomposition.

Rubrik: GenAI & Content Creation · Unterrubrik: Stable Diffusion · Niveau: Fortgeschritten


Was ist SDXL?

SDXL 1.0 wurde im Juli 2023 von Stability AI veröffentlicht und markiert einen erheblichen Qualitätssprung gegenüber den Vorgängermodellen. Die wichtigsten Neuerungen: Das Modell arbeitet nativ in 1024×1024 Pixel statt 512×512, nutzt ein dreifach größeres U-Net als SD 1.5, führt ein zweistufiges Base+Refiner-System ein und integriert verbesserte Text-Encoder-Architekturen.

Die Forschungsgrundlage liefert der Paper „SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis" (Podell et al., 2023). Gewichte sind unter der CreativeML OpenRAIL++-Lizenz frei verfügbar.


Erklärung

Architektur-Unterschiede zu SD 1.5

U-Net-Größe: SDXL nutzt ein U-Net mit 2,6 Milliarden Parametern — dreimal so groß wie SD 1.5 (860 Mio. Parameter). Das ermöglicht feinere semantische Repräsentationen.

Dual-CLIP-Encoder: SDXL kombiniert zwei Text-Encoder: OpenAI CLIP ViT-L und OpenCLIP ViT-bigG. Das verbessert das Textverständnis erheblich, insbesondere für komplexe Szenen-Kompositionen.

Auflösung und Conditioning: SDXL ist auf 1024×1024 trainiert, unterstützt aber auch nicht-quadratische Formate wie 1152×896 (Portrait) oder 1216×832 (Landscape). Empfohlene Auflösungen folgen einem Raster mit festen Seitenverhältnissen.

Das Base+Refiner-System

SDXL besteht aus zwei separaten Modellen:

Base-Modell: Generiert das initiale Latent bei hohem Rauschpegel. Zuständig für Gesamtkomposition, Farbgebung, grobe Strukturen. Typische Parameter: 80–100% der Steps im Base-Modell.

Refiner-Modell: Ein kleineres, auf niedrige Rauschniveaus spezialisiertes Modell. Verfeinert Details, Texturen und scharfe Kanten. Typische Parameter: 20–30% der Steps im Refiner, Denoising-Start bei 0.8.

In ComfyUI wird dieses zweistufige System als sauberer Node-Workflow abgebildet. In AUTOMATIC1111 ist der Refiner über die SDXL-spezifische Einstellung „Refiner" im txt2img-Tab integriert.

SDXL-VAE

SDXL nutzt einen neuen VAE, der gegenüber dem SD-1.x-VAE verbesserte Farbtreue und weniger Artefakte liefert. Wichtig: Der SDXL-VAE muss explizit geladen werden — das Basismodell enthält ihn, aber FP16-Qualitätsprobleme entstehen ohne den separat heruntergeladenen FP16-Fix-VAE.

SDXL-Turbo und SDXL-Lightning

SDXL-Turbo (Stability AI, 2023): Adversarial Diffusion Distillation — Bilder in 1–4 Steps, deutlich weniger Qualität als volles SDXL.

SDXL-Lightning (ByteDance, 2024): Konsistenzmodell-Destillation — 4–8 Steps mit hoher Qualität. Breite Community-Adoption.

Hyper-SDXL: Schritt-Destillation für 4-Step-Inferenz bei guter Qualität.


Schritt-für-Schritt / Einrichtung

SDXL in AUTOMATIC1111

```

Settings → User Interface → Quick Settings List: sdmodelcheckpoint, sd_vae (beide als Quick-Settings hinzufügen)

Sampler: DPM++ 2M Karras oder Euler Steps: 30–40 (Base), +10 (Refiner) CFG Scale: 6–8 Auflösung: 1024×1024 (oder andere SDXL-empfohlene Größen) Refiner: aktivieren, Switch at: 0.8 ```

Empfohlene SDXL-Auflösungen

FormatBreiteHöhePixel
Quadrat102410241.048.576
Portrait83212161.011.712
Landscape12168321.011.712
Breitbild13447681.032.192
Ultra-Wide1536640983.040

Wichtig: Die Gesamtpixelzahl sollte nahe 1 Million liegen. Stark abweichende Auflösungen führen zu schlechter Komposition.


Beispiele (5 konkrete Anwendungsfälle)

  1. Hochwertige Pressebilder: Nachrichtenagenturen generieren begleitende Illustrationen in 1024×1024 mit SDXL — die native Auflösung reicht für Webpublikationen direkt aus.
  2. Magazin-Cover-Konzepte: Der verbesserte CLIP-Encoder ermöglicht präzisere Umsetzung komplexer Szenen: „A woman reading a newspaper in a rainy Tokyo street, neon reflections, editorial photography style" wird mit SDXL erheblich besser umgesetzt als mit SD 1.5.
  3. Text in Bildern: SDXL zeigt deutlich verbesserte Textwiedergabe — kurze Worte auf Schildern, Logos oder Überschriften gelingen häufig lesbar. SD 1.5 scheiterte hier fast vollständig.
  4. LoRA-Training für SDXL: Medienhäuser trainieren SDXL-LoRAs auf ihrem Corporate Design — Farben, Typographie-Stil, spezifische Bildsprache werden ins Modell destilliert.
  5. Produkt-Shooting-Ersatz: E-Commerce-Betreiber generieren Produktbilder in 1024×1024 mit SDXL und verschiedenen Hintergründen — Qualität reicht für Webshops aus.

In der Praxis

VRAM-Anforderungen

KonfigurationVRAM
Base only, FP166–8 GB
Base + Refiner, FP1610–12 GB
Base + Refiner, 8-bit8 GB
SDXL-Turbo (4 Steps)6 GB

Für VRAM-Engpässe: --medvram-sdxl als Launch-Argument in A1111. Alternativ: SDXL-Lightning oder Hyper-SDXL als 4-Step-Destillation.

SDXL-Community-Modelle (Civitai)

Juggernaut XL, RealVisXL, DreamShaper XL und Playground v2.5 basieren auf SDXL-Fine-Tuning und erreichen teils bessere Fotorealismus- oder Illustrationsqualität als das Basismodell.


Vergleich & Abgrenzung

MerkmalSD 1.5SDXLFlux.1 Dev
Native Auflösung512 px1024 px1024 px
Parameter (U-Net)860 Mio.2,6 Mrd.12 Mrd.
VRAM-Bedarf4–6 GB8–12 GB12–16 GB
TextwiedergabeSchlechtMittelGut
Community-ModelleSehr vieleVieleWachsend
Speed (Steps)SchnellMittelLangsamer

Häufige Fragen (FAQ)

F: Brauche ich Base und Refiner zwingend zusammen? Nein. Das Base-Modell allein liefert bereits gute Ergebnisse. Der Refiner verbessert Feindetails merklich, verdoppelt aber die Generierungszeit. Für schnelle Iterationen wird oft nur Base genutzt; für finale Bilder empfiehlt sich der zweistufige Prozess.

F: Warum sind meine SDXL-Bilder unscharf oder ausgewaschen? Häufigste Ursachen: (1) Falscher VAE — den SDXL-spezifischen VAE laden oder --no-half-vae nutzen; (2) Zu niedrige CFG Scale (<5) — auf 6–8 erhöhen; (3) Falsche Auflösung — nur SDXL-kompatible Auflösungen verwenden (Gesamt-Pixel ca. 1 Mio.).


Verwandte Einträge

  • Flux — Die nächste Modellgeneration von Black Forest Labs
  • VAE — Warum der richtige VAE für SDXL entscheidend ist
  • ComfyUI Workflows — Standard-SDXL-Base+Refiner-Workflow

Weiterführend

  • Podell, D. et al. (2023). SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis.
  • Stability AI SDXL:
  • Hugging Face SDXL:
  • Civitai SDXL Modelle:
← Zurück zu GenAI & Content Creation
Infotag · 13. Mai · 15:00 Uhr · Vor Ort

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.

Ein halber Nachmittag, der dir drei Jahre Klarheit bringen kann. Kostenlos, unverbindlich, ehrlich.

  • Rundgang durch Studios, Schnitträume und Tonstudio
  • Echte Absolventenfilme sehen
  • 1:1-Beratung zu Bewerbung & BAföG
  • Studierende direkt fragen
  • Kaffee, kein Sales-Pitch
  • Auch online möglich

Platz beim Infotag reservieren

Dauert 30 Sekunden. Bestätigung per E-Mail.
100 % kostenlos · keine Verpflichtung · jederzeit absagbar
Stable Diffusion XL (SDXL) — Wiki | Lazi Akademie | Lazi Akademie Esslingen