Textual Inversion (auch: Embedding) ist eine ressourcenschonende Methode, bei der ein neues Wort-Konzept als Vektor im Text-Embedding-Raum eines Stable-Diffusion-Modells trainiert wird, sodass dieses Schlüsselwort beim späteren Prompting spezifische Stile, Motive oder Objekte zuverlässig abruft.
Rubrik: GenAI & Content Creation · Unterrubrik: Stable Diffusion · Niveau: Fortgeschritten Synonyme / Auch bekannt als: Embedding, TI, Textual Embedding, SD Embedding
Was ist Textual Inversion?
Textual Inversion wurde 2022 von Gal et al. (Weizmann Institute) vorgestellt. Die zentrale Idee: Statt das gesamte Modell zu verändern, wird nur ein einziger neuer Token (ein neues Wort) im Vokabular des CLIP-Text-Encoders eingeführt. Dieser Token wird so optimiert, dass er ein spezifisches Konzept (z. B. einen bestimmten Stil, ein Objekt oder eine Textur) präzise repräsentiert. Die entstehende Datei – das Embedding – ist winzig (typisch 10–100 KB), aber enthält die hochdimensionale Repräsentation des gelernten Konzepts.
Erklärung
Stable Diffusion versteht Text über einen CLIP-Text-Encoder: Wörter werden in mehrdimensionale Vektoren (Embeddings) umgewandelt, die im latenten Raum des Modells Bedeutung kodieren. Beim normalen Prompting werden bestehende Tokens aus dem CLIP-Vokabular genutzt.
Bei Textual Inversion wird ein neuer, seltener Token (z. B. <my-concept> oder S*) in diesen Vokabularraum eingefügt und sein Embedding-Vektor durch Training auf Referenzbildern optimiert. Der Prozess:
- Initialisierung: Der neue Token wird mit dem Embedding eines semantisch ähnlichen Worts initialisiert (z. B. der Stilname oder ein beschreibendes Wort)
- Trainingsloop: Das Modell versucht, die Trainingsbilder zu rekonstruieren; der Fehler fließt nur zurück in den Embedding-Vektor des neuen Tokens – alle anderen Modellgewichte bleiben unverändert
- Optimierung: Über typisch 3.000–5.000 Schritte wird der Vektor so angepasst, dass er das gelernte Konzept optimal repräsentiert
- Export: Der trainierte Vektor wird als
.ptoder.bin-Datei gespeichert
Technische Eigenschaften:
- Eingabegröße: 3–20 Bilder ausreichend; mehr Bilder verbessern Konsistenz, aber erhöhen Risiko für Überanpassung
- VRAM: ~4–6 GB (viel weniger als DreamBooth oder LoRA)
- Trainingszeit: 30–90 Minuten auf modernem GPU
- Ausgabedatei: 10–100 KB (extrem kompakt)
Negative Embeddings: Eine besonders wichtige Anwendung. Trainiert auf unerwünschten Ausgaben (schlechte Anatomie, Artefakte, schlechte Qualität) dienen Embeddings als hocheffiziente Negativ-Prompts. Weit verbreitet ist z. B. EasyNegative – ein Embedding, das mit tausenden Negativbeispielen trainiert wurde und als kurzer Token im Negativprompt eine breite Palette häufiger Fehler unterdrückt.
Multi-Token Embeddings: Komplexe Konzepte können auf mehrere Tokens aufgeteilt werden (z. B. <style-1> <style-2>), was eine nuanciertere Repräsentation ermöglicht.
Embeddings werden in AUTOMATIC1111 in den Ordner embeddings/ abgelegt und sind danach sofort verfügbar. In ComfyUI werden sie als TextualInversionLoader-Node geladen.
Beispiele
- Stil-Embedding: 10 Gemälde eines Künstlers → TI-Training → Embedding
<klimt-style>→ Prompt „landscape painting, <klimt-style>" generiert Landschaften im Stil des trainierten Künstlers. - Charakter-Konsistenz: 8 Illustrations eines Charakters → Embedding → Verwendung des Tokens in verschiedenen Szenen-Prompts → konsistentes Charakteraussehen ohne Vollmodell-Training.
- Objekt-Embedding: 12 Fotos eines speziellen Produkts → TI-Training → Produktgenerierung in beliebigen Kontexten und Lichtsituationen.
- Negativ-Embedding (EasyNegative): Vortrainiertes Embedding mit Negativbeispielen → im Negativprompt als
EasyNegativeverwenden → automatische Unterdrückung von schlechter Anatomie, unscharfen Texten, Wasserzeichen-Artefakten. - Textur-Embedding: 6 Fotos einer spezifischen Materialtextur (z. B. handgemachtes Papier) → Embedding → Prompt mit Textur-Token → Motive mit dieser Textur unterlegen.
In der Praxis
Workflow in AUTOMATIC1111:
- Trainingsbilder in einem Unterordner von
textual_inversion_templates/ablegen - Im Tab „Train" → „Create Embedding" neuen Token benennen (z. B.
my-concept) - Initialisierungsstring setzen (beschreibendes Wort des Konzepts)
- Training Steps (3.000–5.000), Batch Size und Learning Rate konfigurieren
- Training starten; Embedding wird in
embeddings/gespeichert - Token in Prompts verwenden:
a photo in my-concept style
Nutzung vorgefertigter Embeddings:
.ptoder.bin-Datei in den Ordnerembeddings/ablegen- AUTOMATIC1111 neu starten oder „Refresh" klicken
- Token im Prompt einsetzen (Name der Datei ohne Dateiendung)
Empfohlene Quellen für fertige Embeddings:
- Civitai (größtes Repository)
- Hugging Face (viele Negativ-Embeddings)
Fallstricke:
- Embeddings sind modellspezifisch: Ein für SD 1.5 trainiertes Embedding funktioniert nicht zuverlässig mit SDXL.
- Zu wenige Trainingsbilder führen zu schwacher Repräsentation; zu viele können Überanpassung erzeugen.
- TI kann Konzepte, die sehr stark von bestehenden CLIP-Vokabular-Tokens abweichen, schlechter lernen als DreamBooth oder LoRA.
- Negativ-Embeddings im Negativprompt stark gewichten (z. B.
(EasyNegative:1.4)) kann Qualität verbessern.
Vergleich & Abgrenzung
| Merkmal | Textual Inversion | LoRA | DreamBooth |
|---|---|---|---|
| Was wird verändert | Text-Embedding | U-Net Adapter-Matrizen | U-Net Gewichte (oder LoRA) |
| Qualität | Mittel | Hoch | Sehr hoch |
| VRAM | ~4 GB | ~6–12 GB | ~8–24 GB |
| Dateigröße | 10–100 KB | 20–200 MB | 20 MB – 7 GB |
| Beste Nutzung | Stile, Texturen, Negativ-Prompts | Stile, Charaktere | Personen, Objekte |
Textual Inversion ist die leichtgewichtigste Methode und eignet sich hervorragend als Einstieg in das Training oder für die spezifische Anwendung als Negativ-Embedding. Für komplexe Subjekte wie Personen ist DreamBooth oder LoRA Training überlegen.
Häufige Fragen (FAQ)
Wie verwende ich Textual Inversion in der Praxis? Am einfachsten: Fertige Embeddings von Civitai oder Hugging Face herunterladen, die .pt-Datei in den Ordner embeddings/ von AUTOMATIC1111 legen und den Dateinamen als Token im Prompt verwenden. Für eigene Trainings genügen 5–15 Bilder und ein Standard-PC mit 6 GB VRAM; AUTOMATIC1111 bietet dafür einen integrierten Trainingsbereich.
Was sind typische Fehler bei Textual Inversion? Der häufigste Fehler ist die modellübergreifende Nutzung: Ein SD-1.5-Embedding liefert bei SDXL schlechte Ergebnisse oder funktioniert gar nicht. Außerdem werden Embeddings oft nicht ausreichend stark gewichtet – das Konzept kommt dann kaum durch. Für Negativ-Embeddings empfiehlt sich eine Gewichtung von 1.2–1.5. Ein weiterer Fehler ist zu langes Training, das zur Überanpassung führt: Das Modell generiert dann fast nur noch das Trainingsobjekt, unabhängig vom Prompt.
Weiterführend
- Textual Inversion Paper (Gal et al. 2022)
- AUTOMATIC1111 Training Guide
- Hugging Face Textual Inversion Guide
- Civitai Embeddings Repository
