Textual Inversion / Embedding

Textual Inversion (auch: Embedding) ist eine ressourcenschonende Methode, bei der ein neues Wort-Konzept als Vektor im Text-Embedding-Raum eines Stable-Diffusion-Modells trainiert wird, sodass dieses Schlüsselwort beim späteren Prompting spezifische Stile, Motive oder Objekte zuverlässig abruft.

Rubrik: GenAI & Content Creation · Unterrubrik: Stable Diffusion · Niveau: Fortgeschritten Synonyme / Auch bekannt als: Embedding, TI, Textual Embedding, SD Embedding

Was ist Textual Inversion?

Textual Inversion wurde 2022 von Gal et al. (Weizmann Institute) vorgestellt. Die zentrale Idee: Statt das gesamte Modell zu verändern, wird nur ein einziger neuer Token (ein neues Wort) im Vokabular des CLIP-Text-Encoders eingeführt. Dieser Token wird so optimiert, dass er ein spezifisches Konzept (z. B. einen bestimmten Stil, ein Objekt oder eine Textur) präzise repräsentiert. Die entstehende Datei, das Embedding, ist winzig (typisch 10–100 KB), aber enthält die hochdimensionale Repräsentation des gelernten Konzepts.

Erklärung

Stable Diffusion versteht Text über einen CLIP-Text-Encoder: Wörter werden in mehrdimensionale Vektoren (Embeddings) umgewandelt, die im latenten Raum des Modells Bedeutung kodieren. Beim normalen Prompting werden bestehende Tokens aus dem CLIP-Vokabular genutzt.

Bei Textual Inversion wird ein neuer, seltener Token (z. B. <my-concept> oder S*) in diesen Vokabularraum eingefügt und sein Embedding-Vektor durch Training auf Referenzbildern optimiert. Der Prozess:

Initialisierung: Der neue Token wird mit dem Embedding eines semantisch ähnlichen Worts initialisiert (z. B. der Stilname oder ein beschreibendes Wort)
Trainingsloop: Das Modell versucht, die Trainingsbilder zu rekonstruieren; der Fehler fließt nur zurück in den Embedding-Vektor des neuen Tokens, alle anderen Modellgewichte bleiben unverändert
Optimierung: Über typisch 3.000–5.000 Schritte wird der Vektor so angepasst, dass er das gelernte Konzept optimal repräsentiert
Export: Der trainierte Vektor wird als .pt oder .bin-Datei gespeichert

Technische Eigenschaften:

Eingabegröße: 3–20 Bilder ausreichend; mehr Bilder verbessern Konsistenz, aber erhöhen Risiko für Überanpassung
VRAM: ~4–6 GB (viel weniger als DreamBooth oder LoRA)
Trainingszeit: 30–90 Minuten auf modernem GPU
Ausgabedatei: 10–100 KB (extrem kompakt)

Negative Embeddings: Eine besonders wichtige Anwendung. Trainiert auf unerwünschten Ausgaben (schlechte Anatomie, Artefakte, schlechte Qualität) dienen Embeddings als hocheffiziente Negativ-Prompts. Weit verbreitet ist z. B. EasyNegative, ein Embedding, das mit tausenden Negativbeispielen trainiert wurde und als kurzer Token im Negativprompt eine breite Palette häufiger Fehler unterdrückt.

Multi-Token Embeddings: Komplexe Konzepte können auf mehrere Tokens aufgeteilt werden (z. B. <style-1> <style-2>), was eine nuanciertere Repräsentation ermöglicht.

Embeddings werden in AUTOMATIC1111 in den Ordner embeddings/ abgelegt und sind danach sofort verfügbar. In ComfyUI werden sie als TextualInversionLoader-Node geladen.

Beispiele

Stil-Embedding: 10 Gemälde eines Künstlers → TI-Training → Embedding <klimt-style> → Prompt „landscape painting, <klimt-style>" generiert Landschaften im Stil des trainierten Künstlers.
Charakter-Konsistenz: 8 Illustrations eines Charakters → Embedding → Verwendung des Tokens in verschiedenen Szenen-Prompts → konsistentes Charakteraussehen ohne Vollmodell-Training.
Objekt-Embedding: 12 Fotos eines speziellen Produkts → TI-Training → Produktgenerierung in beliebigen Kontexten und Lichtsituationen.
Negativ-Embedding (EasyNegative): Vortrainiertes Embedding mit Negativbeispielen → im Negativprompt als EasyNegative verwenden → automatische Unterdrückung von schlechter Anatomie, unscharfen Texten, Wasserzeichen-Artefakten.
Textur-Embedding: 6 Fotos einer spezifischen Materialtextur (z. B. handgemachtes Papier) → Embedding → Prompt mit Textur-Token → Motive mit dieser Textur unterlegen.

In der Praxis

Workflow in AUTOMATIC1111:

Trainingsbilder in einem Unterordner von textual_inversion_templates/ ablegen
Im Tab „Train" → „Create Embedding" neuen Token benennen (z. B. my-concept)
Initialisierungsstring setzen (beschreibendes Wort des Konzepts)
Training Steps (3.000–5.000), Batch Size und Learning Rate konfigurieren
Training starten; Embedding wird in embeddings/ gespeichert
Token in Prompts verwenden: a photo in my-concept style

Nutzung vorgefertigter Embeddings:

.pt oder .bin-Datei in den Ordner embeddings/ ablegen
AUTOMATIC1111 neu starten oder „Refresh" klicken
Token im Prompt einsetzen (Name der Datei ohne Dateiendung)

Empfohlene Quellen für fertige Embeddings:

Civitai (größtes Repository)
Hugging Face (viele Negativ-Embeddings)

Fallstricke:

Embeddings sind modellspezifisch: Ein für SD 1.5 trainiertes Embedding funktioniert nicht zuverlässig mit SDXL.
Zu wenige Trainingsbilder führen zu schwacher Repräsentation; zu viele können Überanpassung erzeugen.
TI kann Konzepte, die sehr stark von bestehenden CLIP-Vokabular-Tokens abweichen, schlechter lernen als DreamBooth oder LoRA.
Negativ-Embeddings im Negativprompt stark gewichten (z. B. (EasyNegative:1.4)) kann Qualität verbessern.

Vergleich & Abgrenzung

Merkmal	Textual Inversion	LoRA	DreamBooth
Was wird verändert	Text-Embedding	U-Net Adapter-Matrizen	U-Net Gewichte (oder LoRA)
Qualität	Mittel	Hoch	Sehr hoch
VRAM	~4 GB	~6–12 GB	~8–24 GB
Dateigröße	10–100 KB	20–200 MB	20 MB, 7 GB
Beste Nutzung	Stile, Texturen, Negativ-Prompts	Stile, Charaktere	Personen, Objekte

Textual Inversion ist die leichtgewichtigste Methode und eignet sich hervorragend als Einstieg in das Training oder für die spezifische Anwendung als Negativ-Embedding. Für komplexe Subjekte wie Personen ist DreamBooth oder LoRA Training überlegen.

Häufige Fragen (FAQ)

Wie verwende ich Textual Inversion in der Praxis? Am einfachsten: Fertige Embeddings von Civitai oder Hugging Face herunterladen, die .pt-Datei in den Ordner embeddings/ von AUTOMATIC1111 legen und den Dateinamen als Token im Prompt verwenden. Für eigene Trainings genügen 5–15 Bilder und ein Standard-PC mit 6 GB VRAM; AUTOMATIC1111 bietet dafür einen integrierten Trainingsbereich.

Was sind typische Fehler bei Textual Inversion? Der häufigste Fehler ist die modellübergreifende Nutzung: Ein SD-1.5-Embedding liefert bei SDXL schlechte Ergebnisse oder funktioniert gar nicht. Außerdem werden Embeddings oft nicht ausreichend stark gewichtet, das Konzept kommt dann kaum durch. Für Negativ-Embeddings empfiehlt sich eine Gewichtung von 1.2–1.5. Ein weiterer Fehler ist zu langes Training, das zur Überanpassung führt: Das Modell generiert dann fast nur noch das Trainingsobjekt, unabhängig vom Prompt.

Weiterführend

Textual Inversion Paper (Gal et al. 2022)
AUTOMATIC1111 Training Guide
Hugging Face Textual Inversion Guide
Civitai Embeddings Repository

Was ist Textual Inversion?

Erklärung

Beispiele

In der Praxis

Vergleich & Abgrenzung

Häufige Fragen (FAQ)

Verwandte Einträge

Weiterführend

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.

Platz beim Infotag reservieren

Textual Inversion / Embedding

Was ist Textual Inversion?

Erklärung

Beispiele

In der Praxis

Vergleich & Abgrenzung

Häufige Fragen (FAQ)

Verwandte Einträge

Weiterführend

Sei am Mittwoch dabei.Bring Eltern oder Freunde mit.

Platz beim Infotag reservieren

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.