← Zurück zu GenAI & Content Creation
Bildgewichtung in Stable Diffusion bezeichnet die Techniken zur differenzierten Steuerung von Prompt-Elementen durch Klammern, Zahlenwerte, BREAK-Kommandos und logische Verknüpfungen, um präzisere Kontrolle über die Bildgenerierung zu erlangen.

Rubrik: GenAI & Content Creation · Unterrubrik: Stable Diffusion · Niveau: Fortgeschritten


Was ist Bildgewichtung?

Stable Diffusion verarbeitet Textprompts nicht als gleichwertige Liste von Begriffen. CLIP teilt den Prompt in Tokens auf und verarbeitet jeden Token in einem semantischen Kontext. Die Reihenfolge der Begriffe, ihre Häufigkeit und — mit spezieller Syntax — ihre explizite Gewichtung beeinflussen, wie stark jeder Begriff die Bildgenerierung steuert.

AUTOMATIC1111 implementiert eine spezifische Gewichtungssyntax, die über die Standard-CLIP-Verarbeitung hinausgeht. ComfyUI und andere Interfaces implementieren ähnliche, aber nicht immer identische Syntaxformen.


Erklärung

Runde Klammern — Gewicht erhöhen

`` (Begriff) → Gewicht ×1.1 ((Begriff)) → Gewicht ×1.21 (1.1²) (((Begriff))) → Gewicht ×1.33 (1.1³) (Begriff:1.5) → Gewicht ×1.5 (explizit) (Begriff:2.0) → Gewicht ×2.0 ``

Jede Ebene runder Klammern multipliziert das Gewicht mit 1.1. Über :Faktor lässt sich das Gewicht exakt angeben. Empfehlung: Selten über 1.5 gehen — höhere Werte führen oft zu Artefakten.

Beispiel: `` "(golden hour lighting:1.3), portrait of a woman, (sharp focus:1.2)" `` Beleuchtung und Schärfe werden stärker gewichtet als das Basis-Sujet.

Eckige Klammern — Gewicht verringern

`` [Begriff] → Gewicht ×0.909 (1/1.1) Begriff → Gewicht ×0.826 (1/1.1²) [Begriff:0.7] → Gewicht ×0.7 (explizit) ``

Seltener genutzt, aber nützlich um Elemente zu dämpfen, ohne sie vollständig auszuschließen:

`` "landscape photography, [blue tones], warm sunset" `` Blautöne werden angedeutet, aber warm überwiegt.

BREAK — Kompositions-Reset

`` "[Komposition oben], [Stil] BREAK [Komposition unten], [anderer Stil]" ``

BREAK teilt den Prompt in zwei Teile, die vom CLIP-Encoder getrennt verarbeitet werden. Das löst das Problem der „Attention-Pollution": Ohne BREAK beeinflussen Begriffe aus Satz A die Wahrnehmung von Satz B.

Typischer Einsatz: `` "elegant woman in a red dress, standing, full body BREAK modern city background, blue hour, bokeh" → Person und Hintergrund werden getrennt konditioniert ``

AND — Kompositions-Kombination

`` "Bild A AND Bild B" ``

AND ist eine alternative Kompositionsmethode, die zwei vollständige Prompts mit gleicher Gewichtung (oder explizit gewichtet) kombiniert:

`` "forest landscape AND anime style AND:0.5" ``

Nützlich für Style-Blending, aber weniger präzise als BREAK für räumliche Komposition.

Prompt-Reihenfolge

CLIP verarbeitet Token in einem Kontextfenster. Frühe Token im Prompt haben in der Regel stärkeren Einfluss als spätere. Die wichtigsten Beschreibungselemente sollten daher am Prompt-Anfang stehen:

`` Empfohlene Struktur: [Hauptsujet], [wichtigster Stil], [Komposition], [Beleuchtung], [Kamera/Optik], [Qualitätsmodifikatoren] ``

Token-Limit beachten

CLIP verarbeitet maximal 77 Tokens (Unterworte, nicht Wörter). Längere Prompts werden abgeschnitten. In A1111 gibt es eine Einstellung für 150 oder 225 Tokens durch sequenzielle CLIP-Verarbeitung — aber effektive Prompts bleiben in der Regel unter 77 Tokens.

`` A1111: Settings → Stable Diffusion → "Token merging ratio" und "Token attention reduction" ``


Schritt-für-Schritt / Einrichtung

Gewichtungsexperiment mit X/Y-Plot

`` Script: X/Y/Z Plot X-Type: Prompt S/R (Search and Replace) X-Values: (golden hour lighting), (golden hour lighting:0.5), (golden hour lighting:1.3), (golden hour lighting:1.8) Fixed alle anderen Parameter → Vergleicht Auswirkung verschiedener Gewichtungsstufen ``

Häufige Gewichtungsmuster

``` "(oil painting, impressionist:1.4), [person], [landscape]"

"(woman in focus:1.2), (blurry background:0.8)"

"cyberpunk aesthetic, (neon lights:1.1), (dark atmosphere:1.1), detailed, cinematic" ```


Beispiele (5 konkrete Anwendungsfälle)

  1. Beleuchtungs-Dominanz bei Fotografie: (dramatic side lighting:1.4), portrait, neutral background — die Beleuchtungsanweisung dominiert die Komposition, was zu konsistenten Lichtmoments-Portraits führt.
  2. Stil-Reinheit bei Illustration: Für einen klaren Anime-Stil werden konkurrierende Realismus-Elemente gedämpft: (anime style:1.3), detailed illustration, [photorealistic], [photograph] — das Modell bleibt im Anime-Raum.
  3. Person+Hintergrund-Trennung via BREAK: (detailed portrait of a chef:1.2), white chef jacket, professional BREAK modern restaurant kitchen, warm lighting, bokeh background — sauberere Attribut-Zuordnung ohne Cross-Contamination.
  4. Kompositions-Balance: Für Bilder mit mehreren gleichwertigen Elementen: (mountain landscape:1.0), (reflection in lake:1.0), (dramatic clouds:0.9), sunset — alle Elemente erscheinen ohne einen dominanten Fokus.
  5. Subtile Stil-Mischung: (Rembrandt portrait style:0.7) AND (modern photography:0.7) erzeugt eine atmosphärische Mischung aus historischer Malerei-Ästhetik und fotografischer Präzision.

In der Praxis

Gewichtung vs. Häufigkeit

Eine Alternative zur Klammer-Gewichtung ist die Häufigkeit: blue sky, blue ocean, blue tones, blue light enthält „blau" viermal — das hat ähnliche Wirkung wie (blue:1.4). Klammer-Gewichtung ist präziser; Häufigkeit ist intuitiver.

Modellspezifisches Gewichtungsverhalten

Nicht alle Modelle reagieren gleich auf Gewichtungssyntax:

  • SD 1.5-basierte Modelle: Reagieren gut auf :0.7:1.5-Werte
  • SDXL: Ähnlich, aber teils weniger empfindlich auf Fein-Gewichtung
  • Flux: T5-basierter Encoder — natürlichsprachige Prompts ohne Klammern funktionieren oft besser; Gewichtungs-Syntax hat geringere Wirkung

ComfyUI-Syntax-Unterschiede

ComfyUI verwendet (SDXL CLIP) teilweise andere Syntax. Der CLIPTextEncode-Node mit dem Standard-CLIP reagiert auf A1111-Syntax, aber die Verhaltensweise kann leicht abweichen. Spezielle Nodes wie CLIPTextEncodeSDXL erlauben separate Gewichtung für den ersten und zweiten CLIP-Encoder.


Vergleich & Abgrenzung

SyntaxEffektAnwendung
(Begriff:1.3)Stärker gewichtetWichtige Elemente betonen
[Begriff:0.7]Schwächer gewichtetElemente dämpfen
BREAKKompositions-ResetPerson + Hintergrund trennen
ANDGleichwertige KombinationStyle-Blending
Reihenfolge vorneMehr AttentionHauptsujet voran
HäufigkeitKumulatives GewichtAlternative zu Klammern

Häufige Fragen (FAQ)

F: Wie viele Klammern-Ebenen sind sinnvoll? Praktisch ist eine Ebene mit explizitem Wert (Begriff:1.3) besser kontrollierbar als mehrere verschachtelte Klammern ohne Wert. Drei Klammern-Ebenen ((((Begriff)))) erzeugen Gewicht 1.33 — das ist bereits spürbar. Vier und mehr Ebenen führen schnell zu Bildinstabilität. Empfehlung: Maximal zwei Ebenen ohne expliziten Wert, oder direkt :Faktor nutzen.

F: Warum ignoriert SD manche Prompt-Elemente trotz Gewichtung? CLIP hat semantische Grenzen: Konzepte, die im Trainingsdatensatz selten oder gar nicht vorkamen, können nicht zuverlässig generiert werden — unabhängig von der Gewichtung. Außerdem kann das Prompt-Token-Limit (77) dazu führen, dass späte Begriffe ignoriert werden. Lösung: BREAK nutzen, Prompt kürzen oder Beschreibung anders formulieren.


Verwandte Einträge


Weiterführend

  • AUTOMATIC1111 Attention/Emphasis:
  • Prompt Engineering Guide (Community):
  • CLIP Paper: Radford, A. et al. (2021). Learning Transferable Visual Models From Natural Language Supervision.
← Zurück zu GenAI & Content Creation
Infotag · 13. Mai · 15:00 Uhr · Vor Ort

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.

Ein halber Nachmittag, der dir drei Jahre Klarheit bringen kann. Kostenlos, unverbindlich, ehrlich.

  • Rundgang durch Studios, Schnitträume und Tonstudio
  • Echte Absolventenfilme sehen
  • 1:1-Beratung zu Bewerbung & BAföG
  • Studierende direkt fragen
  • Kaffee, kein Sales-Pitch
  • Auch online möglich

Platz beim Infotag reservieren

Dauert 30 Sekunden. Bestätigung per E-Mail.
100 % kostenlos · keine Verpflichtung · jederzeit absagbar