Image-to-Image (img2img) ist eine Betriebsweise von Stable Diffusion, bei der ein vorhandenes Bild als Ausgangspunkt dient und durch kontrollierten Rausch- und Generierungsprozess in Richtung eines Textprompts transformiert wird.
Rubrik: GenAI & Content Creation · Unterrubrik: Stable Diffusion · Niveau: Fortgeschritten
Was ist Image-to-Image?
Im Gegensatz zu txt2img, das aus reinem Rauschen startet, beginnt img2img mit einem realen Bild. Dieses Bild wird zunächst durch den VAE in den Latent-Raum kodiert, dann kontrolliert verrauscht (partiell oder vollständig) und schließlich durch den Diffusionsprozess in Richtung des Textprompts zurückgeführt.
img2img ist einer der vielseitigsten Workflows in Stable Diffusion und bildet die technische Grundlage für Inpainting, Outpainting, Hires Fix und viele ControlNet-Anwendungen. Die kreative Nutzung reicht von subtiler Stil-Transformation bis zur radikalen Bildumformung.
Erklärung
Denoising Strength — der Schlüsselparameter
Die Denoising Strength (auch: Denoise Strength, Noise Strength) ist der wichtigste Parameter im img2img-Workflow. Sie steuert, wie viel Rauschen dem Eingangsbild hinzugefügt wird, bevor der Generierungsprozess beginnt:
- 0.0: Kein Rauschen, kein Denoising — Ausgabe ist identisch mit Eingabe
- 0.1–0.3: Minimale Veränderung, nur feine Textur-Anpassungen
- 0.4–0.6: Moderate Transformation — Stil ändert sich, Komposition bleibt
- 0.7–0.85: Starke Transformation — Komposition bleibt grob erhalten
- 0.86–1.0: Nahezu vollständige Neugenerierung, Eingangsbild als lose Inspiration
Technisch: Bei Denoising Strength 0.7 werden 70% der Gesamt-Steps als Denoising-Schritte genutzt — das entspricht einem Startpunkt bei 70% des Rauschniveaus statt bei 100% wie bei txt2img.
Wie img2img das Bild verändert
Der Prozess in drei Phasen:
- Encoding: Das Eingangsbild wird durch den VAE-Encoder in ein Latent kodiert (~64×64 bei SD 1.5)
- Rauschen: Dem Latent wird entsprechend der Denoising Strength Gaußsches Rauschen hinzugefügt
- Denoising: Das U-Net entfernt das Rauschen, geleitet durch Text-Prompt und CFG-Scale
Der Unterschied zu txt2img: Das initiale Latent ist nicht reines Rauschen, sondern eine verrauschte Version des Eingabebilds. Das bedeutet: Kompositions- und Farbinformation aus dem Original beeinflusst das Ergebnis proportional zur Denoising Strength.
Stil-Transfer via img2img
img2img ist eine einfache Methode für Stilübertragung: Ein Inhaltsbild wird mit einem Stil-Prompt kombiniert. Beispiel:
`` Eingabebild: Foto einer Stadtstraße Prompt: "oil painting, impressionist style, Monet" Denoising: 0.75 ``
Das Ergebnis ist eine impressionistische Malerei mit der Straßen-Komposition des Originalfotos.
Schritt-für-Schritt / Einrichtung
img2img in AUTOMATIC1111
```
- img2img Tab öffnen
- Bild in die Drop-Zone ziehen
- Resize-Methode wählen:
- Just resize: Streckt auf Zielauflösung - Crop and resize: Zentriert und schneidet zu - Resize and fill: Füllt mit Hintergrundfarbe - Just resize (latent upscale): Latent-Upscaling vor Denoising (empfohlen für Hochskalierung)
- Prompt und Negative eingeben
- Denoising Strength einstellen (Start: 0.75)
- Auflösung: Idealerweise Originalgröße oder leicht angepasst
- Steps: 25–30
- CFG: 7
```
Batch img2img für Seriengenerierung
``` import requests, base64
with open("input.png", "rb") as f: image_data = base64.b64encode(f.read()).decode()
payload = { "initimages": [imagedata], "prompt": "oil painting style", "denoisingstrength": 0.75, "steps": 25, "cfgscale": 7, "width": 512, "height": 512 } response = requests.post("http://127.0.0.1:7860/sdapi/v1/img2img", json=payload) ```
Beispiele (5 konkrete Anwendungsfälle)
- Fotografie zu Illustration: Pressefotos werden via img2img in Illustrationen für Magazinartikel umgewandelt. Denoising Strength 0.6–0.7 erhält die Komposition, transformiert aber das Erscheinungsbild in einen Zeichnungsstil.
- Rapid Prototyping für Designs: Designer skizzieren Layouts schnell mit Bleistift oder in einem Vektor-Tool, nutzen das als img2img-Input und lassen SD die Skizze in eine ausgearbeitete Visualisierung umwandeln — schnelle Iterationen ohne vollständige Produktion.
- Konsistenz über Bildserien: Für Social-Media-Serien werden alle Bilder durch denselben img2img-Prozess (gleicher Stil-Prompt, gleiche Parameter) geleitet, um visuell konsistente Feeds zu erzeugen.
- Fotokorrektur und -verbesserung: Bilder mit schlechter Beleuchtung oder störendem Hintergrund werden mit niedrigem Denoising (0.3–0.4) und einem spezifischen Prompt bearbeitet — die Komposition bleibt, störende Elemente werden reduziert.
- Hires Fix (intern): AUTOMATIC1111s Hires-Fix-Feature ist im Kern ein img2img-Prozess: Das bei niedriger Auflösung generierte Bild wird hochskaliert und mit geringerem Denoising (0.4–0.6) erneut durch SD geleitet, um hochauflösende Details hinzuzufügen.
In der Praxis
Die Auflösungsfrage
Beim img2img sollte die Zielauflösung möglichst der trainierten Auflösung des Modells entsprechen:
- SD 1.5: 512×512 optimal
- SDXL: 1024×1024 optimal
Stark abweichende Auflösungen (z. B. hochauflösendes Foto in SD 1.5) führen zu Kompositionsproblemen. Lösung: Entweder vorher auf Modell-Auflösung herunterskalieren oder „Resize and fill" mit anschließendem Outpainting nutzen.
Seed-Locking für Variationen
`` Seed: 12345 (fixer Wert) Denoising: 0.4, 0.6, 0.8 (Variation über mehrere Runs) ``
Mit fixem Seed und variierender Denoising Strength entsteht eine geordnete Übergangsreihe vom Original zur vollständigen Neugenerierung — nützlich für Entscheidungsfindung beim Kreativprozess.
img2img vs. ControlNet
img2img und ControlNet lösen ähnliche Probleme auf unterschiedliche Weise:
- img2img: Gesamtbild als Referenz, Struktur durch Denoising-Grad gesteuert
- ControlNet: Extrahierte strukturelle Merkmale als Konditionierung, unabhängig von Denoising
Für exakte Kompositionssteuerung ist ControlNet präziser; für atmosphärische Transformation ist img2img einfacher und schneller.
Vergleich & Abgrenzung
| Methode | Strukturkontrolle | Stilfreiheit | Komplexität | Einsatz |
|---|---|---|---|---|
| img2img (niedrig DN) | Hoch | Niedrig | Gering | Subtile Korrekturen |
| img2img (mittel DN) | Mittel | Mittel | Gering | Stil-Transfer |
| img2img (hoch DN) | Niedrig | Hoch | Gering | Neuinterpretation |
| ControlNet | Sehr hoch | Hoch | Mittel | Präzise Komposition |
| IP-Adapter | Gering | Sehr hoch | Mittel | Stilatmosphäre |
Häufige Fragen (FAQ)
F: Welche Denoising Strength sollte ich für Stilübertragung wählen? Als Faustregel: 0.6–0.75 für gute Stilübertragung bei erhaltener Komposition. Unter 0.5 bleibt der Stileffekt meist zu schwach; über 0.85 geht zu viel der ursprünglichen Struktur verloren. Das Optimum variiert je nach Eingabebild und Prompt — kurze Experimente mit 0.5, 0.65, 0.75 und 0.85 helfen beim Finden des richtigen Werts.
F: Warum unterscheidet sich img2img-Ergebnis stark von txt2img mit identischem Prompt? img2img startet nicht bei 100% Rauschen, sondern bei einem niedrigeren Rauschpegel, der vom Eingabebild beeinflusst wird. Das bedeutet, die frühen hochrauschigen Steps — die Gesamtkomposition und Farbgebung maßgeblich bestimmen — werden übersprungen. Das Modell optimiert nur im späten, detailorientierten Teil des Denoising-Prozesses, was zu anderen (oft detailtreueren) Ergebnissen führt.
Verwandte Einträge
- Inpainting & Outpainting — Spezialfall von img2img für gezielte Bildbearbeitung
- Sampler & Scheduler — Sampler-Wahl beeinflusst auch img2img-Ergebnisse
- ControlNet — Alternative für präzisere strukturelle Kontrolle
Weiterführend
- Rombach, R. et al. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. CVPR.
- AUTOMATIC1111 img2img Dokumentation:
- SDNext img2img Guide:
