← Zurück zu GenAI & Content Creation
CFG Scale (Classifier-Free Guidance Scale) ist ein Parameter in Stable Diffusion, der steuert, wie stark das Modell dem Textprompt gegenüber der unkonditionierten (prompt-freien) Generierung bevorzugt — und damit die Prompttreue und Bildcharakteristik maßgeblich beeinflusst.

Rubrik: GenAI & Content Creation · Unterrubrik: Stable Diffusion · Niveau: Fortgeschritten


Was ist CFG Scale?

CFG Scale, häufig auch Guidance Scale genannt, wurde im Kontext von Classifier-Free Guidance (Ho & Salimans, 2021) eingeführt und ist seitdem ein Standardparameter aller gängigen Diffusionsmodelle. Der Parameter beantwortet mathematisch eine grundlegende Frage: Wie viel Gewicht legt das Modell auf den Textprompt im Vergleich zu seiner freien, prompt-unabhängigen Vorstellung eines Bildes?

Der Wert liegt typischerweise zwischen 1 und 20. Die meisten Nutzer arbeiten im Bereich 5–10.


Erklärung

Mathematischer Hintergrund

Classifier-Free Guidance modifiziert den Rauschentfernungsschritt in jedem Diffusionsschritt:

`` Angepasstes Noise Estimate = unkonditioniertes Estimate + CFG_Scale × (konditioniertes Estimate - unkonditioniertes Estimate) ``

Bei CFG = 1: Das konditionierte Estimate (mit Prompt) wird genauso stark gewichtet wie das unkonditionierte (ohne Prompt) — Prompt hat minimalen Einfluss.

Bei CFG = 7: Das Modell verstärkt den Unterschied zwischen prompt-geführtem und prompt-losem Denoising um den Faktor 7. Der Prompt dominiert die Bildgestaltung deutlich.

Bei CFG = 15+: Extreme Prompttreue, aber das Signal wird überverstärkt — Artefakte, Überzeichnung, neonhafte Farben und inkohärente Strukturen entstehen.

Auswirkungen im Bildbereich

CFG 1–3 (sehr niedrig): Das Modell folgt dem Prompt kaum. Bilder sind ästhetisch, aber semantisch unbestimmt. Gut für: Explorative Textur-Generierung, abstrakte Kunst.

CFG 4–5 (niedrig): Lockere Promptinterpretation. Das Modell zeigt Kreativität. Weiche, diffuse Bilder. Gut für: Atmosphärische Illustrationen.

CFG 6–8 (Standard): Ausgewogene Balance zwischen Prompttreue und Bildqualität. Empfehlung für die meisten Anwendungen. CFG 7 ist der de-facto-Standardwert.

CFG 9–12 (mittel-hoch): Präzisere Promptfolge, schärfere Kanten, kräftigere Farben. Gut für: Wenn spezifische Elemente zwingend erscheinen müssen. Beginnt bei manchen Modellen Textur-Artefakte zu zeigen.

CFG 13–15 (hoch): Sehr strenge Promptfolge. Bilder wirken oft überschärft, Farben überzeichnet. Nur für spezifische künstlerische Effekte empfehlenswert.

CFG 16+ (sehr hoch): Fast nie sinnvoll. Artefakte, Bildkorruption, extrem unnatürliche Erscheinung. Kann für psychedelische/experimentelle Zwecke genutzt werden.

Modellspezifische Unterschiede

Der optimale CFG-Wert variiert je nach Modell erheblich:

ModellOptimaler CFG-Bereich
SD 1.5 Standard6–8
SD 1.5 Fine-Tunes (Realistisch)5–7
SDXL6–9
Juggernaut XL4–7
Flux.1 Dev3–5
Flux.1 Schnell1–2 (eigene CFG-Implementierung)
SDXL-Turbo0–1 (fast CFG-frei)
LCM-Modelle1–2

Diese Unterschiede entstehen durch verschiedene Trainingsprozesse und Destillationsmethoden. Destillierte Modelle (Turbo, LCM, Lightning, Flux Schnell) haben Guidance bereits ins Modell integriert und benötigen niedrige bis keine externe CFG.


Schritt-für-Schritt / Einrichtung

CFG-Scale-Optimierung per X/Y-Plot

``` Script: X/Y/Z Plot in AUTOMATIC1111 X-Type: CFG Scale X-Values: 4, 5, 6, 7, 8, 9, 10, 12 Fixed Seed: 42 Gleicher Prompt und Sampler

→ Alle CFG-Werte mit einem Klick vergleichen → Optimum für das spezifische Modell und den Prompt visuell identifizieren ```

Dynamic Thresholding (Mimic-CFG)

Eine Erweiterung des klassischen CFG-Konzepts: Statt den Gradient linear zu verstärken, werden Extremwerte gekappt (Threshold). Das ermöglicht höhere CFG-Werte ohne Artefakte. In A1111 über Self-Attention Guidance (SAG) Extension oder im CFG-Rescale-Parameter.

`` CFG Scale: 12 # Höherer Wert als sonst möglich CFG Rescale Factor: 0.7 # Dämpft Extremwerte ``

Flux-spezifische Guidance

Flux verwendet eine andere Guidance-Implementierung (Distilled Guidance statt klassischer CFG):

`` ComfyUI (Flux): → Node: FluxGuidance statt CFG-Parameter im KSampler → Guidance Value: 3.5 (empfohlen für Flux Dev) → Flux Schnell: Guidance = 0 oder nicht verwendet ``


Beispiele (5 konkrete Anwendungsfälle)

  1. Fotorealistisches Portrait (SD 1.5): CFG 6–7, Steps 25, DPM++ 2M Karras. Der niedrige CFG ermöglicht natürliche Hauttöne und vermeidet die überschärfte Plastikoptik, die bei CFG > 9 entsteht.
  2. Konzeptkunst mit spezifischen Elementen: Ein Prompt enthält viele spezifische Elemente (bestimmte Objekte, Farben, Charakteristika). CFG 9–10 erzwingt, dass das Modell möglichst viele Prompt-Elemente berücksichtigt statt künstlerisch zu vereinfachen.
  3. Abstrakte Textur-Generierung: Für Hintergrundtexturen ohne semantische Aussage wird CFG 2–3 genutzt — das Modell ignoriert den Prompt weitgehend und erzeugt freie, ästhetische Texturen.
  4. Negative-Prompt-Wirksamkeit erhöhen: Bei niedrigem CFG (< 5) wirken Negative Prompts kaum. Für starke NSFW-Filterung oder das Ausschließen spezifischer Elemente sollte CFG auf 7–9 erhöht werden.
  5. Real-Time-Skizzeninterpretation mit LCM: Ein interaktives System generiert aus handgezeichneten Skizzen via img2img + LCM-Sampler Bilder in Echtzeit. LCM benötigt CFG 1–2, was schnellere Berechnungen ermöglicht.

In der Praxis

Die CFG-Qualitätskurve

Für die meisten Modelle zeigt die Qualität eine umgekehrte U-Kurve:

  • Steigt von CFG 1 bis zum Optimum (je nach Modell 5–9)
  • Fällt danach durch zunehmende Artefakte wieder ab

Dieses Optimum zu kennen ist für professionelle Workflows entscheidend.

CFG und Negative Prompts zusammen

CFG und Negative Prompts interagieren direkt: Der Negative Prompt definiert die unkonditionierte Richtung, von der das Modell weggedrückt wird. Bei höherem CFG wird stärker von den Negativen weggedrückt — was gewollte (Qualitätsverbesserung) und ungewollte (Überzeichnung) Effekte hat.

`` Optimale Kombination für SD 1.5: CFG: 7 Negative: "blurry, deformed, ugly, low quality, watermark, jpeg artifacts" → Gute Qualitätssteigerung ohne Artefakte ``


Vergleich & Abgrenzung

CFG-WertPrompttreueBildqualitätArtefakt-RisikoEmpfehlung
1–3Sehr niedrigWeichKeinsAbstrakt/Textur
4–5NiedrigGutKeinsIllustrationen
6–8MittelSehr gutGeringStandard
9–12HochGutMittelSpez. Inhalte
13–15Sehr hochMittelHochSelten sinnvoll
16+ExtremSchlechtSehr hochExperimentell

Häufige Fragen (FAQ)

F: Warum sehen meine Bilder bei hohem CFG so künstlich aus? Das ist ein bekanntes Phänomen namens „CFG Burn": Bei hohen CFG-Werten werden positive Bildmerkmale (Helligkeit, Sättigung, Schärfe) überproportional verstärkt, was zu neonartigen Farben, übertriebenen Kontrasten und plastischem Erscheinungsbild führt. Abhilfe: CFG reduzieren oder Dynamic Thresholding / CFG Rescale aktivieren.

F: Warum braucht Flux so viel niedrigere CFG-Werte als SD 1.5? Flux nutzt Distilled Guidance, bei dem Guidance-Information bereits während des Trainings in die Modellgewichte eingearbeitet wurde. Klassische CFG-Verstärkung on top führt daher zu Übersteuerung. Der FluxGuidance-Node in ComfyUI implementiert die modellspezifische Guidance-Methode korrekt — externe CFG wie bei SD 1.5 ist konzeptionell unterschiedlich.


Verwandte Einträge


Weiterführend

  • Ho, J. & Salimans, T. (2021). Classifier-Free Diffusion Guidance. NeurIPS Workshop.
  • Karras, T. et al. (2022). Elucidating the Design Space of Diffusion-Based Generative Models.
  • Dynamic Thresholding Paper: Saharia, C. et al. (2022). Photorealistic Text-to-Image Diffusion Models.
← Zurück zu GenAI & Content Creation
Infotag · 13. Mai · 15:00 Uhr · Vor Ort

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.

Ein halber Nachmittag, der dir drei Jahre Klarheit bringen kann. Kostenlos, unverbindlich, ehrlich.

  • Rundgang durch Studios, Schnitträume und Tonstudio
  • Echte Absolventenfilme sehen
  • 1:1-Beratung zu Bewerbung & BAföG
  • Studierende direkt fragen
  • Kaffee, kein Sales-Pitch
  • Auch online möglich

Platz beim Infotag reservieren

Dauert 30 Sekunden. Bestätigung per E-Mail.
100 % kostenlos · keine Verpflichtung · jederzeit absagbar