← Zurück zu GenAI & Content Creation
Textual Inversion (auch: Embedding) ist eine ressourcenschonende Methode, bei der ein neues Wort-Konzept als Vektor im Text-Embedding-Raum eines Stable-Diffusion-Modells trainiert wird, sodass dieses Schlüsselwort beim späteren Prompting spezifische Stile, Motive oder Objekte zuverlässig abruft.

Rubrik: GenAI & Content Creation · Unterrubrik: Stable Diffusion · Niveau: Fortgeschritten Synonyme / Auch bekannt als: Embedding, TI, Textual Embedding, SD Embedding

Was ist Textual Inversion?

Textual Inversion wurde 2022 von Gal et al. (Weizmann Institute) vorgestellt. Die zentrale Idee: Statt das gesamte Modell zu verändern, wird nur ein einziger neuer Token (ein neues Wort) im Vokabular des CLIP-Text-Encoders eingeführt. Dieser Token wird so optimiert, dass er ein spezifisches Konzept (z. B. einen bestimmten Stil, ein Objekt oder eine Textur) präzise repräsentiert. Die entstehende Datei – das Embedding – ist winzig (typisch 10–100 KB), aber enthält die hochdimensionale Repräsentation des gelernten Konzepts.

Erklärung

Stable Diffusion versteht Text über einen CLIP-Text-Encoder: Wörter werden in mehrdimensionale Vektoren (Embeddings) umgewandelt, die im latenten Raum des Modells Bedeutung kodieren. Beim normalen Prompting werden bestehende Tokens aus dem CLIP-Vokabular genutzt.

Bei Textual Inversion wird ein neuer, seltener Token (z. B. <my-concept> oder S*) in diesen Vokabularraum eingefügt und sein Embedding-Vektor durch Training auf Referenzbildern optimiert. Der Prozess:

  1. Initialisierung: Der neue Token wird mit dem Embedding eines semantisch ähnlichen Worts initialisiert (z. B. der Stilname oder ein beschreibendes Wort)
  2. Trainingsloop: Das Modell versucht, die Trainingsbilder zu rekonstruieren; der Fehler fließt nur zurück in den Embedding-Vektor des neuen Tokens – alle anderen Modellgewichte bleiben unverändert
  3. Optimierung: Über typisch 3.000–5.000 Schritte wird der Vektor so angepasst, dass er das gelernte Konzept optimal repräsentiert
  4. Export: Der trainierte Vektor wird als .pt oder .bin-Datei gespeichert

Technische Eigenschaften:

  • Eingabegröße: 3–20 Bilder ausreichend; mehr Bilder verbessern Konsistenz, aber erhöhen Risiko für Überanpassung
  • VRAM: ~4–6 GB (viel weniger als DreamBooth oder LoRA)
  • Trainingszeit: 30–90 Minuten auf modernem GPU
  • Ausgabedatei: 10–100 KB (extrem kompakt)

Negative Embeddings: Eine besonders wichtige Anwendung. Trainiert auf unerwünschten Ausgaben (schlechte Anatomie, Artefakte, schlechte Qualität) dienen Embeddings als hocheffiziente Negativ-Prompts. Weit verbreitet ist z. B. EasyNegative – ein Embedding, das mit tausenden Negativbeispielen trainiert wurde und als kurzer Token im Negativprompt eine breite Palette häufiger Fehler unterdrückt.

Multi-Token Embeddings: Komplexe Konzepte können auf mehrere Tokens aufgeteilt werden (z. B. <style-1> <style-2>), was eine nuanciertere Repräsentation ermöglicht.

Embeddings werden in AUTOMATIC1111 in den Ordner embeddings/ abgelegt und sind danach sofort verfügbar. In ComfyUI werden sie als TextualInversionLoader-Node geladen.

Beispiele

  1. Stil-Embedding: 10 Gemälde eines Künstlers → TI-Training → Embedding <klimt-style> → Prompt „landscape painting, <klimt-style>" generiert Landschaften im Stil des trainierten Künstlers.
  2. Charakter-Konsistenz: 8 Illustrations eines Charakters → Embedding → Verwendung des Tokens in verschiedenen Szenen-Prompts → konsistentes Charakteraussehen ohne Vollmodell-Training.
  3. Objekt-Embedding: 12 Fotos eines speziellen Produkts → TI-Training → Produktgenerierung in beliebigen Kontexten und Lichtsituationen.
  4. Negativ-Embedding (EasyNegative): Vortrainiertes Embedding mit Negativbeispielen → im Negativprompt als EasyNegative verwenden → automatische Unterdrückung von schlechter Anatomie, unscharfen Texten, Wasserzeichen-Artefakten.
  5. Textur-Embedding: 6 Fotos einer spezifischen Materialtextur (z. B. handgemachtes Papier) → Embedding → Prompt mit Textur-Token → Motive mit dieser Textur unterlegen.

In der Praxis

Workflow in AUTOMATIC1111:

  1. Trainingsbilder in einem Unterordner von textual_inversion_templates/ ablegen
  2. Im Tab „Train" → „Create Embedding" neuen Token benennen (z. B. my-concept)
  3. Initialisierungsstring setzen (beschreibendes Wort des Konzepts)
  4. Training Steps (3.000–5.000), Batch Size und Learning Rate konfigurieren
  5. Training starten; Embedding wird in embeddings/ gespeichert
  6. Token in Prompts verwenden: a photo in my-concept style

Nutzung vorgefertigter Embeddings:

  • .pt oder .bin-Datei in den Ordner embeddings/ ablegen
  • AUTOMATIC1111 neu starten oder „Refresh" klicken
  • Token im Prompt einsetzen (Name der Datei ohne Dateiendung)

Empfohlene Quellen für fertige Embeddings:

  • Civitai (größtes Repository)
  • Hugging Face (viele Negativ-Embeddings)

Fallstricke:

  • Embeddings sind modellspezifisch: Ein für SD 1.5 trainiertes Embedding funktioniert nicht zuverlässig mit SDXL.
  • Zu wenige Trainingsbilder führen zu schwacher Repräsentation; zu viele können Überanpassung erzeugen.
  • TI kann Konzepte, die sehr stark von bestehenden CLIP-Vokabular-Tokens abweichen, schlechter lernen als DreamBooth oder LoRA.
  • Negativ-Embeddings im Negativprompt stark gewichten (z. B. (EasyNegative:1.4)) kann Qualität verbessern.

Vergleich & Abgrenzung

MerkmalTextual InversionLoRADreamBooth
Was wird verändertText-EmbeddingU-Net Adapter-MatrizenU-Net Gewichte (oder LoRA)
QualitätMittelHochSehr hoch
VRAM~4 GB~6–12 GB~8–24 GB
Dateigröße10–100 KB20–200 MB20 MB – 7 GB
Beste NutzungStile, Texturen, Negativ-PromptsStile, CharakterePersonen, Objekte

Textual Inversion ist die leichtgewichtigste Methode und eignet sich hervorragend als Einstieg in das Training oder für die spezifische Anwendung als Negativ-Embedding. Für komplexe Subjekte wie Personen ist DreamBooth oder LoRA Training überlegen.

Häufige Fragen (FAQ)

Wie verwende ich Textual Inversion in der Praxis? Am einfachsten: Fertige Embeddings von Civitai oder Hugging Face herunterladen, die .pt-Datei in den Ordner embeddings/ von AUTOMATIC1111 legen und den Dateinamen als Token im Prompt verwenden. Für eigene Trainings genügen 5–15 Bilder und ein Standard-PC mit 6 GB VRAM; AUTOMATIC1111 bietet dafür einen integrierten Trainingsbereich.

Was sind typische Fehler bei Textual Inversion? Der häufigste Fehler ist die modellübergreifende Nutzung: Ein SD-1.5-Embedding liefert bei SDXL schlechte Ergebnisse oder funktioniert gar nicht. Außerdem werden Embeddings oft nicht ausreichend stark gewichtet – das Konzept kommt dann kaum durch. Für Negativ-Embeddings empfiehlt sich eine Gewichtung von 1.2–1.5. Ein weiterer Fehler ist zu langes Training, das zur Überanpassung führt: Das Modell generiert dann fast nur noch das Trainingsobjekt, unabhängig vom Prompt.

Weiterführend

  • Textual Inversion Paper (Gal et al. 2022)
  • AUTOMATIC1111 Training Guide
  • Hugging Face Textual Inversion Guide
  • Civitai Embeddings Repository
← Zurück zu GenAI & Content Creation
Infotag · 13. Mai · 15:00 Uhr · Vor Ort

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.

Ein halber Nachmittag, der dir drei Jahre Klarheit bringen kann. Kostenlos, unverbindlich, ehrlich.

  • Rundgang durch Studios, Schnitträume und Tonstudio
  • Echte Absolventenfilme sehen
  • 1:1-Beratung zu Bewerbung & BAföG
  • Studierende direkt fragen
  • Kaffee, kein Sales-Pitch
  • Auch online möglich

Platz beim Infotag reservieren

Dauert 30 Sekunden. Bestätigung per E-Mail.
100 % kostenlos · keine Verpflichtung · jederzeit absagbar