CFG Scale / Guidance Scale

CFG Scale (Classifier-Free Guidance Scale) ist ein Parameter in Stable Diffusion, der steuert, wie stark das Modell dem Textprompt gegenüber der unkonditionierten (prompt-freien) Generierung bevorzugt, und damit die Prompttreue und Bildcharakteristik maßgeblich beeinflusst.

Rubrik: GenAI & Content Creation · Unterrubrik: Stable Diffusion · Niveau: Fortgeschritten

Was ist CFG Scale?

CFG Scale, häufig auch Guidance Scale genannt, wurde im Kontext von Classifier-Free Guidance (Ho & Salimans, 2021) eingeführt und ist seitdem ein Standardparameter aller gängigen Diffusionsmodelle. Der Parameter beantwortet mathematisch eine grundlegende Frage: Wie viel Gewicht legt das Modell auf den Textprompt im Vergleich zu seiner freien, prompt-unabhängigen Vorstellung eines Bildes?

Der Wert liegt typischerweise zwischen 1 und 20. Die meisten Nutzer arbeiten im Bereich 5–10.

Erklärung

Mathematischer Hintergrund

Classifier-Free Guidance modifiziert den Rauschentfernungsschritt in jedem Diffusionsschritt:

`` Angepasstes Noise Estimate = unkonditioniertes Estimate + CFG_Scale × (konditioniertes Estimate - unkonditioniertes Estimate) ``

Bei CFG = 1: Das konditionierte Estimate (mit Prompt) wird genauso stark gewichtet wie das unkonditionierte (ohne Prompt), Prompt hat minimalen Einfluss.

Bei CFG = 7: Das Modell verstärkt den Unterschied zwischen prompt-geführtem und prompt-losem Denoising um den Faktor 7. Der Prompt dominiert die Bildgestaltung deutlich.

Bei CFG = 15+: Extreme Prompttreue, aber das Signal wird überverstärkt, Artefakte, Überzeichnung, neonhafte Farben und inkohärente Strukturen entstehen.

Auswirkungen im Bildbereich

CFG 1–3 (sehr niedrig): Das Modell folgt dem Prompt kaum. Bilder sind ästhetisch, aber semantisch unbestimmt. Gut für: Explorative Textur-Generierung, abstrakte Kunst.

CFG 4–5 (niedrig): Lockere Promptinterpretation. Das Modell zeigt Kreativität. Weiche, diffuse Bilder. Gut für: Atmosphärische Illustrationen.

CFG 6–8 (Standard): Ausgewogene Balance zwischen Prompttreue und Bildqualität. Empfehlung für die meisten Anwendungen. CFG 7 ist der de-facto-Standardwert.

CFG 9–12 (mittel-hoch): Präzisere Promptfolge, schärfere Kanten, kräftigere Farben. Gut für: Wenn spezifische Elemente zwingend erscheinen müssen. Beginnt bei manchen Modellen Textur-Artefakte zu zeigen.

CFG 13–15 (hoch): Sehr strenge Promptfolge. Bilder wirken oft überschärft, Farben überzeichnet. Nur für spezifische künstlerische Effekte empfehlenswert.

CFG 16+ (sehr hoch): Fast nie sinnvoll. Artefakte, Bildkorruption, extrem unnatürliche Erscheinung. Kann für psychedelische/experimentelle Zwecke genutzt werden.

Modellspezifische Unterschiede

Der optimale CFG-Wert variiert je nach Modell erheblich:

Modell	Optimaler CFG-Bereich
SD 1.5 Standard	6–8
SD 1.5 Fine-Tunes (Realistisch)	5–7
SDXL	6–9
Juggernaut XL	4–7
Flux.1 Dev	3–5
Flux.1 Schnell	1–2 (eigene CFG-Implementierung)
SDXL-Turbo	0–1 (fast CFG-frei)
LCM-Modelle	1–2

Diese Unterschiede entstehen durch verschiedene Trainingsprozesse und Destillationsmethoden. Destillierte Modelle (Turbo, LCM, Lightning, Flux Schnell) haben Guidance bereits ins Modell integriert und benötigen niedrige bis keine externe CFG.

Schritt-für-Schritt / Einrichtung

CFG-Scale-Optimierung per X/Y-Plot

``` Script: X/Y/Z Plot in AUTOMATIC1111 X-Type: CFG Scale X-Values: 4, 5, 6, 7, 8, 9, 10, 12 Fixed Seed: 42 Gleicher Prompt und Sampler

→ Alle CFG-Werte mit einem Klick vergleichen → Optimum für das spezifische Modell und den Prompt visuell identifizieren ```

Dynamic Thresholding (Mimic-CFG)

Eine Erweiterung des klassischen CFG-Konzepts: Statt den Gradient linear zu verstärken, werden Extremwerte gekappt (Threshold). Das ermöglicht höhere CFG-Werte ohne Artefakte. In A1111 über Self-Attention Guidance (SAG) Extension oder im CFG-Rescale-Parameter.

`` CFG Scale: 12 # Höherer Wert als sonst möglich CFG Rescale Factor: 0.7 # Dämpft Extremwerte ``

Flux-spezifische Guidance

Flux verwendet eine andere Guidance-Implementierung (Distilled Guidance statt klassischer CFG):

`` ComfyUI (Flux): → Node: FluxGuidance statt CFG-Parameter im KSampler → Guidance Value: 3.5 (empfohlen für Flux Dev) → Flux Schnell: Guidance = 0 oder nicht verwendet ``

Beispiele (5 konkrete Anwendungsfälle)

Fotorealistisches Portrait (SD 1.5): CFG 6–7, Steps 25, DPM++ 2M Karras. Der niedrige CFG ermöglicht natürliche Hauttöne und vermeidet die überschärfte Plastikoptik, die bei CFG > 9 entsteht.
Konzeptkunst mit spezifischen Elementen: Ein Prompt enthält viele spezifische Elemente (bestimmte Objekte, Farben, Charakteristika). CFG 9–10 erzwingt, dass das Modell möglichst viele Prompt-Elemente berücksichtigt statt künstlerisch zu vereinfachen.
Abstrakte Textur-Generierung: Für Hintergrundtexturen ohne semantische Aussage wird CFG 2–3 genutzt, das Modell ignoriert den Prompt weitgehend und erzeugt freie, ästhetische Texturen.
Negative-Prompt-Wirksamkeit erhöhen: Bei niedrigem CFG (< 5) wirken Negative Prompts kaum. Für starke NSFW-Filterung oder das Ausschließen spezifischer Elemente sollte CFG auf 7–9 erhöht werden.
Real-Time-Skizzeninterpretation mit LCM: Ein interaktives System generiert aus handgezeichneten Skizzen via img2img + LCM-Sampler Bilder in Echtzeit. LCM benötigt CFG 1–2, was schnellere Berechnungen ermöglicht.

In der Praxis

Die CFG-Qualitätskurve

Für die meisten Modelle zeigt die Qualität eine umgekehrte U-Kurve:

Steigt von CFG 1 bis zum Optimum (je nach Modell 5–9)
Fällt danach durch zunehmende Artefakte wieder ab

Dieses Optimum zu kennen ist für professionelle Workflows entscheidend.

CFG und Negative Prompts zusammen

CFG und Negative Prompts interagieren direkt: Der Negative Prompt definiert die unkonditionierte Richtung, von der das Modell weggedrückt wird. Bei höherem CFG wird stärker von den Negativen weggedrückt, was gewollte (Qualitätsverbesserung) und ungewollte (Überzeichnung) Effekte hat.

`` Optimale Kombination für SD 1.5: CFG: 7 Negative: "blurry, deformed, ugly, low quality, watermark, jpeg artifacts" → Gute Qualitätssteigerung ohne Artefakte ``

Vergleich & Abgrenzung

CFG-Wert	Prompttreue	Bildqualität	Artefakt-Risiko	Empfehlung
1–3	Sehr niedrig	Weich	Keins	Abstrakt/Textur
4–5	Niedrig	Gut	Keins	Illustrationen
6–8	Mittel	Sehr gut	Gering	Standard
9–12	Hoch	Gut	Mittel	Spez. Inhalte
13–15	Sehr hoch	Mittel	Hoch	Selten sinnvoll
16+	Extrem	Schlecht	Sehr hoch	Experimentell

Häufige Fragen (FAQ)

F: Warum sehen meine Bilder bei hohem CFG so künstlich aus? Das ist ein bekanntes Phänomen namens „CFG Burn": Bei hohen CFG-Werten werden positive Bildmerkmale (Helligkeit, Sättigung, Schärfe) überproportional verstärkt, was zu neonartigen Farben, übertriebenen Kontrasten und plastischem Erscheinungsbild führt. Abhilfe: CFG reduzieren oder Dynamic Thresholding / CFG Rescale aktivieren.

F: Warum braucht Flux so viel niedrigere CFG-Werte als SD 1.5? Flux nutzt Distilled Guidance, bei dem Guidance-Information bereits während des Trainings in die Modellgewichte eingearbeitet wurde. Klassische CFG-Verstärkung on top führt daher zu Übersteuerung. Der FluxGuidance-Node in ComfyUI implementiert die modellspezifische Guidance-Methode korrekt, externe CFG wie bei SD 1.5 ist konzeptionell unterschiedlich.

Weiterführend

Ho, J. & Salimans, T. (2021). Classifier-Free Diffusion Guidance. NeurIPS Workshop.
Karras, T. et al. (2022). Elucidating the Design Space of Diffusion-Based Generative Models.
Dynamic Thresholding Paper: Saharia, C. et al. (2022). Photorealistic Text-to-Image Diffusion Models.

Was ist CFG Scale?

Erklärung

Mathematischer Hintergrund

Auswirkungen im Bildbereich

Modellspezifische Unterschiede

Schritt-für-Schritt / Einrichtung

CFG-Scale-Optimierung per X/Y-Plot

Dynamic Thresholding (Mimic-CFG)

Flux-spezifische Guidance

Beispiele (5 konkrete Anwendungsfälle)

In der Praxis

Die CFG-Qualitätskurve

CFG und Negative Prompts zusammen

Vergleich & Abgrenzung

Häufige Fragen (FAQ)

Verwandte Einträge

Weiterführend

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.

Platz beim Infotag reservieren

CFG Scale / Guidance Scale

Was ist CFG Scale?

Erklärung

Mathematischer Hintergrund

Auswirkungen im Bildbereich

Modellspezifische Unterschiede

Schritt-für-Schritt / Einrichtung

CFG-Scale-Optimierung per X/Y-Plot

Dynamic Thresholding (Mimic-CFG)

Flux-spezifische Guidance

Beispiele (5 konkrete Anwendungsfälle)

In der Praxis

Die CFG-Qualitätskurve

CFG und Negative Prompts zusammen

Vergleich & Abgrenzung

Häufige Fragen (FAQ)

Verwandte Einträge

Weiterführend

Sei am Mittwoch dabei.Bring Eltern oder Freunde mit.

Platz beim Infotag reservieren

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.