CFG Scale (Classifier-Free Guidance Scale) ist ein Parameter in Stable Diffusion, der steuert, wie stark das Modell dem Textprompt gegenüber der unkonditionierten (prompt-freien) Generierung bevorzugt — und damit die Prompttreue und Bildcharakteristik maßgeblich beeinflusst.
Rubrik: GenAI & Content Creation · Unterrubrik: Stable Diffusion · Niveau: Fortgeschritten
Was ist CFG Scale?
CFG Scale, häufig auch Guidance Scale genannt, wurde im Kontext von Classifier-Free Guidance (Ho & Salimans, 2021) eingeführt und ist seitdem ein Standardparameter aller gängigen Diffusionsmodelle. Der Parameter beantwortet mathematisch eine grundlegende Frage: Wie viel Gewicht legt das Modell auf den Textprompt im Vergleich zu seiner freien, prompt-unabhängigen Vorstellung eines Bildes?
Der Wert liegt typischerweise zwischen 1 und 20. Die meisten Nutzer arbeiten im Bereich 5–10.
Erklärung
Mathematischer Hintergrund
Classifier-Free Guidance modifiziert den Rauschentfernungsschritt in jedem Diffusionsschritt:
`` Angepasstes Noise Estimate = unkonditioniertes Estimate + CFG_Scale × (konditioniertes Estimate - unkonditioniertes Estimate) ``
Bei CFG = 1: Das konditionierte Estimate (mit Prompt) wird genauso stark gewichtet wie das unkonditionierte (ohne Prompt) — Prompt hat minimalen Einfluss.
Bei CFG = 7: Das Modell verstärkt den Unterschied zwischen prompt-geführtem und prompt-losem Denoising um den Faktor 7. Der Prompt dominiert die Bildgestaltung deutlich.
Bei CFG = 15+: Extreme Prompttreue, aber das Signal wird überverstärkt — Artefakte, Überzeichnung, neonhafte Farben und inkohärente Strukturen entstehen.
Auswirkungen im Bildbereich
CFG 1–3 (sehr niedrig): Das Modell folgt dem Prompt kaum. Bilder sind ästhetisch, aber semantisch unbestimmt. Gut für: Explorative Textur-Generierung, abstrakte Kunst.
CFG 4–5 (niedrig): Lockere Promptinterpretation. Das Modell zeigt Kreativität. Weiche, diffuse Bilder. Gut für: Atmosphärische Illustrationen.
CFG 6–8 (Standard): Ausgewogene Balance zwischen Prompttreue und Bildqualität. Empfehlung für die meisten Anwendungen. CFG 7 ist der de-facto-Standardwert.
CFG 9–12 (mittel-hoch): Präzisere Promptfolge, schärfere Kanten, kräftigere Farben. Gut für: Wenn spezifische Elemente zwingend erscheinen müssen. Beginnt bei manchen Modellen Textur-Artefakte zu zeigen.
CFG 13–15 (hoch): Sehr strenge Promptfolge. Bilder wirken oft überschärft, Farben überzeichnet. Nur für spezifische künstlerische Effekte empfehlenswert.
CFG 16+ (sehr hoch): Fast nie sinnvoll. Artefakte, Bildkorruption, extrem unnatürliche Erscheinung. Kann für psychedelische/experimentelle Zwecke genutzt werden.
Modellspezifische Unterschiede
Der optimale CFG-Wert variiert je nach Modell erheblich:
| Modell | Optimaler CFG-Bereich |
|---|---|
| SD 1.5 Standard | 6–8 |
| SD 1.5 Fine-Tunes (Realistisch) | 5–7 |
| SDXL | 6–9 |
| Juggernaut XL | 4–7 |
| Flux.1 Dev | 3–5 |
| Flux.1 Schnell | 1–2 (eigene CFG-Implementierung) |
| SDXL-Turbo | 0–1 (fast CFG-frei) |
| LCM-Modelle | 1–2 |
Diese Unterschiede entstehen durch verschiedene Trainingsprozesse und Destillationsmethoden. Destillierte Modelle (Turbo, LCM, Lightning, Flux Schnell) haben Guidance bereits ins Modell integriert und benötigen niedrige bis keine externe CFG.
Schritt-für-Schritt / Einrichtung
CFG-Scale-Optimierung per X/Y-Plot
``` Script: X/Y/Z Plot in AUTOMATIC1111 X-Type: CFG Scale X-Values: 4, 5, 6, 7, 8, 9, 10, 12 Fixed Seed: 42 Gleicher Prompt und Sampler
→ Alle CFG-Werte mit einem Klick vergleichen → Optimum für das spezifische Modell und den Prompt visuell identifizieren ```
Dynamic Thresholding (Mimic-CFG)
Eine Erweiterung des klassischen CFG-Konzepts: Statt den Gradient linear zu verstärken, werden Extremwerte gekappt (Threshold). Das ermöglicht höhere CFG-Werte ohne Artefakte. In A1111 über Self-Attention Guidance (SAG) Extension oder im CFG-Rescale-Parameter.
`` CFG Scale: 12 # Höherer Wert als sonst möglich CFG Rescale Factor: 0.7 # Dämpft Extremwerte ``
Flux-spezifische Guidance
Flux verwendet eine andere Guidance-Implementierung (Distilled Guidance statt klassischer CFG):
`` ComfyUI (Flux): → Node: FluxGuidance statt CFG-Parameter im KSampler → Guidance Value: 3.5 (empfohlen für Flux Dev) → Flux Schnell: Guidance = 0 oder nicht verwendet ``
Beispiele (5 konkrete Anwendungsfälle)
- Fotorealistisches Portrait (SD 1.5): CFG 6–7, Steps 25, DPM++ 2M Karras. Der niedrige CFG ermöglicht natürliche Hauttöne und vermeidet die überschärfte Plastikoptik, die bei CFG > 9 entsteht.
- Konzeptkunst mit spezifischen Elementen: Ein Prompt enthält viele spezifische Elemente (bestimmte Objekte, Farben, Charakteristika). CFG 9–10 erzwingt, dass das Modell möglichst viele Prompt-Elemente berücksichtigt statt künstlerisch zu vereinfachen.
- Abstrakte Textur-Generierung: Für Hintergrundtexturen ohne semantische Aussage wird CFG 2–3 genutzt — das Modell ignoriert den Prompt weitgehend und erzeugt freie, ästhetische Texturen.
- Negative-Prompt-Wirksamkeit erhöhen: Bei niedrigem CFG (< 5) wirken Negative Prompts kaum. Für starke NSFW-Filterung oder das Ausschließen spezifischer Elemente sollte CFG auf 7–9 erhöht werden.
- Real-Time-Skizzeninterpretation mit LCM: Ein interaktives System generiert aus handgezeichneten Skizzen via img2img + LCM-Sampler Bilder in Echtzeit. LCM benötigt CFG 1–2, was schnellere Berechnungen ermöglicht.
In der Praxis
Die CFG-Qualitätskurve
Für die meisten Modelle zeigt die Qualität eine umgekehrte U-Kurve:
- Steigt von CFG 1 bis zum Optimum (je nach Modell 5–9)
- Fällt danach durch zunehmende Artefakte wieder ab
Dieses Optimum zu kennen ist für professionelle Workflows entscheidend.
CFG und Negative Prompts zusammen
CFG und Negative Prompts interagieren direkt: Der Negative Prompt definiert die unkonditionierte Richtung, von der das Modell weggedrückt wird. Bei höherem CFG wird stärker von den Negativen weggedrückt — was gewollte (Qualitätsverbesserung) und ungewollte (Überzeichnung) Effekte hat.
`` Optimale Kombination für SD 1.5: CFG: 7 Negative: "blurry, deformed, ugly, low quality, watermark, jpeg artifacts" → Gute Qualitätssteigerung ohne Artefakte ``
Vergleich & Abgrenzung
| CFG-Wert | Prompttreue | Bildqualität | Artefakt-Risiko | Empfehlung |
|---|---|---|---|---|
| 1–3 | Sehr niedrig | Weich | Keins | Abstrakt/Textur |
| 4–5 | Niedrig | Gut | Keins | Illustrationen |
| 6–8 | Mittel | Sehr gut | Gering | Standard |
| 9–12 | Hoch | Gut | Mittel | Spez. Inhalte |
| 13–15 | Sehr hoch | Mittel | Hoch | Selten sinnvoll |
| 16+ | Extrem | Schlecht | Sehr hoch | Experimentell |
Häufige Fragen (FAQ)
F: Warum sehen meine Bilder bei hohem CFG so künstlich aus? Das ist ein bekanntes Phänomen namens „CFG Burn": Bei hohen CFG-Werten werden positive Bildmerkmale (Helligkeit, Sättigung, Schärfe) überproportional verstärkt, was zu neonartigen Farben, übertriebenen Kontrasten und plastischem Erscheinungsbild führt. Abhilfe: CFG reduzieren oder Dynamic Thresholding / CFG Rescale aktivieren.
F: Warum braucht Flux so viel niedrigere CFG-Werte als SD 1.5? Flux nutzt Distilled Guidance, bei dem Guidance-Information bereits während des Trainings in die Modellgewichte eingearbeitet wurde. Klassische CFG-Verstärkung on top führt daher zu Übersteuerung. Der FluxGuidance-Node in ComfyUI implementiert die modellspezifische Guidance-Methode korrekt — externe CFG wie bei SD 1.5 ist konzeptionell unterschiedlich.
Verwandte Einträge
- Sampler & Scheduler — Sampler und CFG interagieren und müssen gemeinsam optimiert werden
- Negative Prompts in SD — CFG bestimmt, wie stark Negative Prompts wirken
- Bildgewichtung & Prompt-Syntax — Alternative zu hohem CFG für spezifische Prompt-Elemente
Weiterführend
- Ho, J. & Salimans, T. (2021). Classifier-Free Diffusion Guidance. NeurIPS Workshop.
- Karras, T. et al. (2022). Elucidating the Design Space of Diffusion-Based Generative Models.
- Dynamic Thresholding Paper: Saharia, C. et al. (2022). Photorealistic Text-to-Image Diffusion Models.
