Bildgewichtung & Prompt-Syntax in Stable Diffusion

Bildgewichtung in Stable Diffusion bezeichnet die Techniken zur differenzierten Steuerung von Prompt-Elementen durch Klammern, Zahlenwerte, BREAK-Kommandos und logische Verknüpfungen, um präzisere Kontrolle über die Bildgenerierung zu erlangen.

Rubrik: GenAI & Content Creation · Unterrubrik: Stable Diffusion · Niveau: Fortgeschritten

Was ist Bildgewichtung?

Stable Diffusion verarbeitet Textprompts nicht als gleichwertige Liste von Begriffen. CLIP teilt den Prompt in Tokens auf und verarbeitet jeden Token in einem semantischen Kontext. Die Reihenfolge der Begriffe, ihre Häufigkeit und, mit spezieller Syntax, ihre explizite Gewichtung beeinflussen, wie stark jeder Begriff die Bildgenerierung steuert.

AUTOMATIC1111 implementiert eine spezifische Gewichtungssyntax, die über die Standard-CLIP-Verarbeitung hinausgeht. ComfyUI und andere Interfaces implementieren ähnliche, aber nicht immer identische Syntaxformen.

Erklärung

Runde Klammern, Gewicht erhöhen

`` (Begriff) → Gewicht ×1.1 ((Begriff)) → Gewicht ×1.21 (1.1²) (((Begriff))) → Gewicht ×1.33 (1.1³) (Begriff:1.5) → Gewicht ×1.5 (explizit) (Begriff:2.0) → Gewicht ×2.0 ``

Jede Ebene runder Klammern multipliziert das Gewicht mit 1.1. Über :Faktor lässt sich das Gewicht exakt angeben. Empfehlung: Selten über 1.5 gehen, höhere Werte führen oft zu Artefakten.

Beispiel: `` "(golden hour lighting:1.3), portrait of a woman, (sharp focus:1.2)" `` Beleuchtung und Schärfe werden stärker gewichtet als das Basis-Sujet.

Eckige Klammern, Gewicht verringern

`` [Begriff] → Gewicht ×0.909 (1/1.1) Begriff → Gewicht ×0.826 (1/1.1²) [Begriff:0.7] → Gewicht ×0.7 (explizit) ``

Seltener genutzt, aber nützlich um Elemente zu dämpfen, ohne sie vollständig auszuschließen:

`` "landscape photography, [blue tones], warm sunset" `` Blautöne werden angedeutet, aber warm überwiegt.

BREAK, Kompositions-Reset

`` "[Komposition oben], [Stil] BREAK [Komposition unten], [anderer Stil]" ``

BREAK teilt den Prompt in zwei Teile, die vom CLIP-Encoder getrennt verarbeitet werden. Das löst das Problem der „Attention-Pollution": Ohne BREAK beeinflussen Begriffe aus Satz A die Wahrnehmung von Satz B.

Typischer Einsatz: `` "elegant woman in a red dress, standing, full body BREAK modern city background, blue hour, bokeh" → Person und Hintergrund werden getrennt konditioniert ``

AND, Kompositions-Kombination

`` "Bild A AND Bild B" ``

AND ist eine alternative Kompositionsmethode, die zwei vollständige Prompts mit gleicher Gewichtung (oder explizit gewichtet) kombiniert:

`` "forest landscape AND anime style AND:0.5" ``

Nützlich für Style-Blending, aber weniger präzise als BREAK für räumliche Komposition.

Prompt-Reihenfolge

CLIP verarbeitet Token in einem Kontextfenster. Frühe Token im Prompt haben in der Regel stärkeren Einfluss als spätere. Die wichtigsten Beschreibungselemente sollten daher am Prompt-Anfang stehen:

`` Empfohlene Struktur: [Hauptsujet], [wichtigster Stil], [Komposition], [Beleuchtung], [Kamera/Optik], [Qualitätsmodifikatoren] ``

Token-Limit beachten

CLIP verarbeitet maximal 77 Tokens (Unterworte, nicht Wörter). Längere Prompts werden abgeschnitten. In A1111 gibt es eine Einstellung für 150 oder 225 Tokens durch sequenzielle CLIP-Verarbeitung, aber effektive Prompts bleiben in der Regel unter 77 Tokens.

`` A1111: Settings → Stable Diffusion → "Token merging ratio" und "Token attention reduction" ``

Schritt-für-Schritt / Einrichtung

Gewichtungsexperiment mit X/Y-Plot

`` Script: X/Y/Z Plot X-Type: Prompt S/R (Search and Replace) X-Values: (golden hour lighting), (golden hour lighting:0.5), (golden hour lighting:1.3), (golden hour lighting:1.8) Fixed alle anderen Parameter → Vergleicht Auswirkung verschiedener Gewichtungsstufen ``

Häufige Gewichtungsmuster

``` "(oil painting, impressionist:1.4), [person], [landscape]"

"(woman in focus:1.2), (blurry background:0.8)"

"cyberpunk aesthetic, (neon lights:1.1), (dark atmosphere:1.1), detailed, cinematic" ```

Beispiele (5 konkrete Anwendungsfälle)

Beleuchtungs-Dominanz bei Fotografie: (dramatic side lighting:1.4), portrait, neutral background, die Beleuchtungsanweisung dominiert die Komposition, was zu konsistenten Lichtmoments-Portraits führt.
Stil-Reinheit bei Illustration: Für einen klaren Anime-Stil werden konkurrierende Realismus-Elemente gedämpft: (anime style:1.3), detailed illustration, [photorealistic], [photograph], das Modell bleibt im Anime-Raum.
Person+Hintergrund-Trennung via BREAK: (detailed portrait of a chef:1.2), white chef jacket, professional BREAK modern restaurant kitchen, warm lighting, bokeh background, sauberere Attribut-Zuordnung ohne Cross-Contamination.
Kompositions-Balance: Für Bilder mit mehreren gleichwertigen Elementen: (mountain landscape:1.0), (reflection in lake:1.0), (dramatic clouds:0.9), sunset, alle Elemente erscheinen ohne einen dominanten Fokus.
Subtile Stil-Mischung: (Rembrandt portrait style:0.7) AND (modern photography:0.7) erzeugt eine atmosphärische Mischung aus historischer Malerei-Ästhetik und fotografischer Präzision.

In der Praxis

Gewichtung vs. Häufigkeit

Eine Alternative zur Klammer-Gewichtung ist die Häufigkeit: blue sky, blue ocean, blue tones, blue light enthält „blau" viermal, das hat ähnliche Wirkung wie (blue:1.4). Klammer-Gewichtung ist präziser; Häufigkeit ist intuitiver.

Modellspezifisches Gewichtungsverhalten

Nicht alle Modelle reagieren gleich auf Gewichtungssyntax:

SD 1.5-basierte Modelle: Reagieren gut auf :0.7–:1.5-Werte
SDXL: Ähnlich, aber teils weniger empfindlich auf Fein-Gewichtung
Flux: T5-basierter Encoder, natürlichsprachige Prompts ohne Klammern funktionieren oft besser; Gewichtungs-Syntax hat geringere Wirkung

ComfyUI-Syntax-Unterschiede

ComfyUI verwendet (SDXL CLIP) teilweise andere Syntax. Der CLIPTextEncode-Node mit dem Standard-CLIP reagiert auf A1111-Syntax, aber die Verhaltensweise kann leicht abweichen. Spezielle Nodes wie CLIPTextEncodeSDXL erlauben separate Gewichtung für den ersten und zweiten CLIP-Encoder.

Vergleich & Abgrenzung

Syntax	Effekt	Anwendung
`(Begriff:1.3)`	Stärker gewichtet	Wichtige Elemente betonen
`[Begriff:0.7]`	Schwächer gewichtet	Elemente dämpfen
`BREAK`	Kompositions-Reset	Person + Hintergrund trennen
`AND`	Gleichwertige Kombination	Style-Blending
Reihenfolge vorne	Mehr Attention	Hauptsujet voran
Häufigkeit	Kumulatives Gewicht	Alternative zu Klammern

Häufige Fragen (FAQ)

F: Wie viele Klammern-Ebenen sind sinnvoll? Praktisch ist eine Ebene mit explizitem Wert (Begriff:1.3) besser kontrollierbar als mehrere verschachtelte Klammern ohne Wert. Drei Klammern-Ebenen ((((Begriff)))) erzeugen Gewicht 1.33, das ist bereits spürbar. Vier und mehr Ebenen führen schnell zu Bildinstabilität. Empfehlung: Maximal zwei Ebenen ohne expliziten Wert, oder direkt :Faktor nutzen.

F: Warum ignoriert SD manche Prompt-Elemente trotz Gewichtung? CLIP hat semantische Grenzen: Konzepte, die im Trainingsdatensatz selten oder gar nicht vorkamen, können nicht zuverlässig generiert werden, unabhängig von der Gewichtung. Außerdem kann das Prompt-Token-Limit (77) dazu führen, dass späte Begriffe ignoriert werden. Lösung: BREAK nutzen, Prompt kürzen oder Beschreibung anders formulieren.

Weiterführend

AUTOMATIC1111 Attention/Emphasis:
Prompt Engineering Guide (Community):
CLIP Paper: Radford, A. et al. (2021). Learning Transferable Visual Models From Natural Language Supervision.

Was ist Bildgewichtung?

Erklärung

Runde Klammern, Gewicht erhöhen

Eckige Klammern, Gewicht verringern

BREAK, Kompositions-Reset

AND, Kompositions-Kombination

Prompt-Reihenfolge

Token-Limit beachten

Schritt-für-Schritt / Einrichtung

Gewichtungsexperiment mit X/Y-Plot

Häufige Gewichtungsmuster

Beispiele (5 konkrete Anwendungsfälle)

In der Praxis

Gewichtung vs. Häufigkeit

Modellspezifisches Gewichtungsverhalten

ComfyUI-Syntax-Unterschiede

Vergleich & Abgrenzung

Häufige Fragen (FAQ)

Verwandte Einträge

Weiterführend

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.

Platz beim Infotag reservieren

Bildgewichtung & Prompt-Syntax in Stable Diffusion

Was ist Bildgewichtung?

Erklärung

Runde Klammern, Gewicht erhöhen

Eckige Klammern, Gewicht verringern

BREAK, Kompositions-Reset

AND, Kompositions-Kombination

Prompt-Reihenfolge

Token-Limit beachten

Schritt-für-Schritt / Einrichtung

Gewichtungsexperiment mit X/Y-Plot

Häufige Gewichtungsmuster

Beispiele (5 konkrete Anwendungsfälle)

In der Praxis

Gewichtung vs. Häufigkeit

Modellspezifisches Gewichtungsverhalten

ComfyUI-Syntax-Unterschiede

Vergleich & Abgrenzung

Häufige Fragen (FAQ)

Verwandte Einträge

Weiterführend

Sei am Mittwoch dabei.Bring Eltern oder Freunde mit.

Platz beim Infotag reservieren

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.