Bildgewichtung in Stable Diffusion bezeichnet die Techniken zur differenzierten Steuerung von Prompt-Elementen durch Klammern, Zahlenwerte, BREAK-Kommandos und logische Verknüpfungen, um präzisere Kontrolle über die Bildgenerierung zu erlangen.
Rubrik: GenAI & Content Creation · Unterrubrik: Stable Diffusion · Niveau: Fortgeschritten
Was ist Bildgewichtung?
Stable Diffusion verarbeitet Textprompts nicht als gleichwertige Liste von Begriffen. CLIP teilt den Prompt in Tokens auf und verarbeitet jeden Token in einem semantischen Kontext. Die Reihenfolge der Begriffe, ihre Häufigkeit und — mit spezieller Syntax — ihre explizite Gewichtung beeinflussen, wie stark jeder Begriff die Bildgenerierung steuert.
AUTOMATIC1111 implementiert eine spezifische Gewichtungssyntax, die über die Standard-CLIP-Verarbeitung hinausgeht. ComfyUI und andere Interfaces implementieren ähnliche, aber nicht immer identische Syntaxformen.
Erklärung
Runde Klammern — Gewicht erhöhen
`` (Begriff) → Gewicht ×1.1 ((Begriff)) → Gewicht ×1.21 (1.1²) (((Begriff))) → Gewicht ×1.33 (1.1³) (Begriff:1.5) → Gewicht ×1.5 (explizit) (Begriff:2.0) → Gewicht ×2.0 ``
Jede Ebene runder Klammern multipliziert das Gewicht mit 1.1. Über :Faktor lässt sich das Gewicht exakt angeben. Empfehlung: Selten über 1.5 gehen — höhere Werte führen oft zu Artefakten.
Beispiel: `` "(golden hour lighting:1.3), portrait of a woman, (sharp focus:1.2)" `` Beleuchtung und Schärfe werden stärker gewichtet als das Basis-Sujet.
Eckige Klammern — Gewicht verringern
`` [Begriff] → Gewicht ×0.909 (1/1.1) Begriff → Gewicht ×0.826 (1/1.1²) [Begriff:0.7] → Gewicht ×0.7 (explizit) ``
Seltener genutzt, aber nützlich um Elemente zu dämpfen, ohne sie vollständig auszuschließen:
`` "landscape photography, [blue tones], warm sunset" `` Blautöne werden angedeutet, aber warm überwiegt.
BREAK — Kompositions-Reset
`` "[Komposition oben], [Stil] BREAK [Komposition unten], [anderer Stil]" ``
BREAK teilt den Prompt in zwei Teile, die vom CLIP-Encoder getrennt verarbeitet werden. Das löst das Problem der „Attention-Pollution": Ohne BREAK beeinflussen Begriffe aus Satz A die Wahrnehmung von Satz B.
Typischer Einsatz: `` "elegant woman in a red dress, standing, full body BREAK modern city background, blue hour, bokeh" → Person und Hintergrund werden getrennt konditioniert ``
AND — Kompositions-Kombination
`` "Bild A AND Bild B" ``
AND ist eine alternative Kompositionsmethode, die zwei vollständige Prompts mit gleicher Gewichtung (oder explizit gewichtet) kombiniert:
`` "forest landscape AND anime style AND:0.5" ``
Nützlich für Style-Blending, aber weniger präzise als BREAK für räumliche Komposition.
Prompt-Reihenfolge
CLIP verarbeitet Token in einem Kontextfenster. Frühe Token im Prompt haben in der Regel stärkeren Einfluss als spätere. Die wichtigsten Beschreibungselemente sollten daher am Prompt-Anfang stehen:
`` Empfohlene Struktur: [Hauptsujet], [wichtigster Stil], [Komposition], [Beleuchtung], [Kamera/Optik], [Qualitätsmodifikatoren] ``
Token-Limit beachten
CLIP verarbeitet maximal 77 Tokens (Unterworte, nicht Wörter). Längere Prompts werden abgeschnitten. In A1111 gibt es eine Einstellung für 150 oder 225 Tokens durch sequenzielle CLIP-Verarbeitung — aber effektive Prompts bleiben in der Regel unter 77 Tokens.
`` A1111: Settings → Stable Diffusion → "Token merging ratio" und "Token attention reduction" ``
Schritt-für-Schritt / Einrichtung
Gewichtungsexperiment mit X/Y-Plot
`` Script: X/Y/Z Plot X-Type: Prompt S/R (Search and Replace) X-Values: (golden hour lighting), (golden hour lighting:0.5), (golden hour lighting:1.3), (golden hour lighting:1.8) Fixed alle anderen Parameter → Vergleicht Auswirkung verschiedener Gewichtungsstufen ``
Häufige Gewichtungsmuster
``` "(oil painting, impressionist:1.4), [person], [landscape]"
"(woman in focus:1.2), (blurry background:0.8)"
"cyberpunk aesthetic, (neon lights:1.1), (dark atmosphere:1.1), detailed, cinematic" ```
Beispiele (5 konkrete Anwendungsfälle)
- Beleuchtungs-Dominanz bei Fotografie:
(dramatic side lighting:1.4), portrait, neutral background— die Beleuchtungsanweisung dominiert die Komposition, was zu konsistenten Lichtmoments-Portraits führt. - Stil-Reinheit bei Illustration: Für einen klaren Anime-Stil werden konkurrierende Realismus-Elemente gedämpft:
(anime style:1.3), detailed illustration, [photorealistic], [photograph]— das Modell bleibt im Anime-Raum. - Person+Hintergrund-Trennung via BREAK:
(detailed portrait of a chef:1.2), white chef jacket, professional BREAK modern restaurant kitchen, warm lighting, bokeh background— sauberere Attribut-Zuordnung ohne Cross-Contamination. - Kompositions-Balance: Für Bilder mit mehreren gleichwertigen Elementen:
(mountain landscape:1.0), (reflection in lake:1.0), (dramatic clouds:0.9), sunset— alle Elemente erscheinen ohne einen dominanten Fokus. - Subtile Stil-Mischung:
(Rembrandt portrait style:0.7) AND (modern photography:0.7)erzeugt eine atmosphärische Mischung aus historischer Malerei-Ästhetik und fotografischer Präzision.
In der Praxis
Gewichtung vs. Häufigkeit
Eine Alternative zur Klammer-Gewichtung ist die Häufigkeit: blue sky, blue ocean, blue tones, blue light enthält „blau" viermal — das hat ähnliche Wirkung wie (blue:1.4). Klammer-Gewichtung ist präziser; Häufigkeit ist intuitiver.
Modellspezifisches Gewichtungsverhalten
Nicht alle Modelle reagieren gleich auf Gewichtungssyntax:
- SD 1.5-basierte Modelle: Reagieren gut auf
:0.7–:1.5-Werte - SDXL: Ähnlich, aber teils weniger empfindlich auf Fein-Gewichtung
- Flux: T5-basierter Encoder — natürlichsprachige Prompts ohne Klammern funktionieren oft besser; Gewichtungs-Syntax hat geringere Wirkung
ComfyUI-Syntax-Unterschiede
ComfyUI verwendet (SDXL CLIP) teilweise andere Syntax. Der CLIPTextEncode-Node mit dem Standard-CLIP reagiert auf A1111-Syntax, aber die Verhaltensweise kann leicht abweichen. Spezielle Nodes wie CLIPTextEncodeSDXL erlauben separate Gewichtung für den ersten und zweiten CLIP-Encoder.
Vergleich & Abgrenzung
| Syntax | Effekt | Anwendung |
|---|---|---|
(Begriff:1.3) | Stärker gewichtet | Wichtige Elemente betonen |
[Begriff:0.7] | Schwächer gewichtet | Elemente dämpfen |
BREAK | Kompositions-Reset | Person + Hintergrund trennen |
AND | Gleichwertige Kombination | Style-Blending |
| Reihenfolge vorne | Mehr Attention | Hauptsujet voran |
| Häufigkeit | Kumulatives Gewicht | Alternative zu Klammern |
Häufige Fragen (FAQ)
F: Wie viele Klammern-Ebenen sind sinnvoll? Praktisch ist eine Ebene mit explizitem Wert (Begriff:1.3) besser kontrollierbar als mehrere verschachtelte Klammern ohne Wert. Drei Klammern-Ebenen ((((Begriff)))) erzeugen Gewicht 1.33 — das ist bereits spürbar. Vier und mehr Ebenen führen schnell zu Bildinstabilität. Empfehlung: Maximal zwei Ebenen ohne expliziten Wert, oder direkt :Faktor nutzen.
F: Warum ignoriert SD manche Prompt-Elemente trotz Gewichtung? CLIP hat semantische Grenzen: Konzepte, die im Trainingsdatensatz selten oder gar nicht vorkamen, können nicht zuverlässig generiert werden — unabhängig von der Gewichtung. Außerdem kann das Prompt-Token-Limit (77) dazu führen, dass späte Begriffe ignoriert werden. Lösung: BREAK nutzen, Prompt kürzen oder Beschreibung anders formulieren.
Verwandte Einträge
- Negative Prompts in SD — Gewichtungssyntax funktioniert identisch im Negativen
- CFG Scale — CFG und Gewichtung interagieren bei der Promptstärke
- AUTOMATIC1111 — Implementiert die vollständige Gewichtungssyntax
Weiterführend
- AUTOMATIC1111 Attention/Emphasis:
- Prompt Engineering Guide (Community):
- CLIP Paper: Radford, A. et al. (2021). Learning Transferable Visual Models From Natural Language Supervision.
