← Zurück zu GenAI & Content Creation
Image-to-Image (img2img) ist eine Betriebsweise von Stable Diffusion, bei der ein vorhandenes Bild als Ausgangspunkt dient und durch kontrollierten Rausch- und Generierungsprozess in Richtung eines Textprompts transformiert wird.

Rubrik: GenAI & Content Creation · Unterrubrik: Stable Diffusion · Niveau: Fortgeschritten


Was ist Image-to-Image?

Im Gegensatz zu txt2img, das aus reinem Rauschen startet, beginnt img2img mit einem realen Bild. Dieses Bild wird zunächst durch den VAE in den Latent-Raum kodiert, dann kontrolliert verrauscht (partiell oder vollständig) und schließlich durch den Diffusionsprozess in Richtung des Textprompts zurückgeführt.

img2img ist einer der vielseitigsten Workflows in Stable Diffusion und bildet die technische Grundlage für Inpainting, Outpainting, Hires Fix und viele ControlNet-Anwendungen. Die kreative Nutzung reicht von subtiler Stil-Transformation bis zur radikalen Bildumformung.


Erklärung

Denoising Strength — der Schlüsselparameter

Die Denoising Strength (auch: Denoise Strength, Noise Strength) ist der wichtigste Parameter im img2img-Workflow. Sie steuert, wie viel Rauschen dem Eingangsbild hinzugefügt wird, bevor der Generierungsprozess beginnt:

  • 0.0: Kein Rauschen, kein Denoising — Ausgabe ist identisch mit Eingabe
  • 0.1–0.3: Minimale Veränderung, nur feine Textur-Anpassungen
  • 0.4–0.6: Moderate Transformation — Stil ändert sich, Komposition bleibt
  • 0.7–0.85: Starke Transformation — Komposition bleibt grob erhalten
  • 0.86–1.0: Nahezu vollständige Neugenerierung, Eingangsbild als lose Inspiration

Technisch: Bei Denoising Strength 0.7 werden 70% der Gesamt-Steps als Denoising-Schritte genutzt — das entspricht einem Startpunkt bei 70% des Rauschniveaus statt bei 100% wie bei txt2img.

Wie img2img das Bild verändert

Der Prozess in drei Phasen:

  1. Encoding: Das Eingangsbild wird durch den VAE-Encoder in ein Latent kodiert (~64×64 bei SD 1.5)
  2. Rauschen: Dem Latent wird entsprechend der Denoising Strength Gaußsches Rauschen hinzugefügt
  3. Denoising: Das U-Net entfernt das Rauschen, geleitet durch Text-Prompt und CFG-Scale

Der Unterschied zu txt2img: Das initiale Latent ist nicht reines Rauschen, sondern eine verrauschte Version des Eingabebilds. Das bedeutet: Kompositions- und Farbinformation aus dem Original beeinflusst das Ergebnis proportional zur Denoising Strength.

Stil-Transfer via img2img

img2img ist eine einfache Methode für Stilübertragung: Ein Inhaltsbild wird mit einem Stil-Prompt kombiniert. Beispiel:

`` Eingabebild: Foto einer Stadtstraße Prompt: "oil painting, impressionist style, Monet" Denoising: 0.75 ``

Das Ergebnis ist eine impressionistische Malerei mit der Straßen-Komposition des Originalfotos.


Schritt-für-Schritt / Einrichtung

img2img in AUTOMATIC1111

```

  1. img2img Tab öffnen
  2. Bild in die Drop-Zone ziehen
  3. Resize-Methode wählen:

- Just resize: Streckt auf Zielauflösung - Crop and resize: Zentriert und schneidet zu - Resize and fill: Füllt mit Hintergrundfarbe - Just resize (latent upscale): Latent-Upscaling vor Denoising (empfohlen für Hochskalierung)

  1. Prompt und Negative eingeben
  2. Denoising Strength einstellen (Start: 0.75)
  3. Auflösung: Idealerweise Originalgröße oder leicht angepasst
  4. Steps: 25–30
  5. CFG: 7

```

Batch img2img für Seriengenerierung

``` import requests, base64

with open("input.png", "rb") as f: image_data = base64.b64encode(f.read()).decode()

payload = { "initimages": [imagedata], "prompt": "oil painting style", "denoisingstrength": 0.75, "steps": 25, "cfgscale": 7, "width": 512, "height": 512 } response = requests.post("http://127.0.0.1:7860/sdapi/v1/img2img", json=payload) ```


Beispiele (5 konkrete Anwendungsfälle)

  1. Fotografie zu Illustration: Pressefotos werden via img2img in Illustrationen für Magazinartikel umgewandelt. Denoising Strength 0.6–0.7 erhält die Komposition, transformiert aber das Erscheinungsbild in einen Zeichnungsstil.
  2. Rapid Prototyping für Designs: Designer skizzieren Layouts schnell mit Bleistift oder in einem Vektor-Tool, nutzen das als img2img-Input und lassen SD die Skizze in eine ausgearbeitete Visualisierung umwandeln — schnelle Iterationen ohne vollständige Produktion.
  3. Konsistenz über Bildserien: Für Social-Media-Serien werden alle Bilder durch denselben img2img-Prozess (gleicher Stil-Prompt, gleiche Parameter) geleitet, um visuell konsistente Feeds zu erzeugen.
  4. Fotokorrektur und -verbesserung: Bilder mit schlechter Beleuchtung oder störendem Hintergrund werden mit niedrigem Denoising (0.3–0.4) und einem spezifischen Prompt bearbeitet — die Komposition bleibt, störende Elemente werden reduziert.
  5. Hires Fix (intern): AUTOMATIC1111s Hires-Fix-Feature ist im Kern ein img2img-Prozess: Das bei niedriger Auflösung generierte Bild wird hochskaliert und mit geringerem Denoising (0.4–0.6) erneut durch SD geleitet, um hochauflösende Details hinzuzufügen.

In der Praxis

Die Auflösungsfrage

Beim img2img sollte die Zielauflösung möglichst der trainierten Auflösung des Modells entsprechen:

  • SD 1.5: 512×512 optimal
  • SDXL: 1024×1024 optimal

Stark abweichende Auflösungen (z. B. hochauflösendes Foto in SD 1.5) führen zu Kompositionsproblemen. Lösung: Entweder vorher auf Modell-Auflösung herunterskalieren oder „Resize and fill" mit anschließendem Outpainting nutzen.

Seed-Locking für Variationen

`` Seed: 12345 (fixer Wert) Denoising: 0.4, 0.6, 0.8 (Variation über mehrere Runs) ``

Mit fixem Seed und variierender Denoising Strength entsteht eine geordnete Übergangsreihe vom Original zur vollständigen Neugenerierung — nützlich für Entscheidungsfindung beim Kreativprozess.

img2img vs. ControlNet

img2img und ControlNet lösen ähnliche Probleme auf unterschiedliche Weise:

  • img2img: Gesamtbild als Referenz, Struktur durch Denoising-Grad gesteuert
  • ControlNet: Extrahierte strukturelle Merkmale als Konditionierung, unabhängig von Denoising

Für exakte Kompositionssteuerung ist ControlNet präziser; für atmosphärische Transformation ist img2img einfacher und schneller.


Vergleich & Abgrenzung

MethodeStrukturkontrolleStilfreiheitKomplexitätEinsatz
img2img (niedrig DN)HochNiedrigGeringSubtile Korrekturen
img2img (mittel DN)MittelMittelGeringStil-Transfer
img2img (hoch DN)NiedrigHochGeringNeuinterpretation
ControlNetSehr hochHochMittelPräzise Komposition
IP-AdapterGeringSehr hochMittelStilatmosphäre

Häufige Fragen (FAQ)

F: Welche Denoising Strength sollte ich für Stilübertragung wählen? Als Faustregel: 0.6–0.75 für gute Stilübertragung bei erhaltener Komposition. Unter 0.5 bleibt der Stileffekt meist zu schwach; über 0.85 geht zu viel der ursprünglichen Struktur verloren. Das Optimum variiert je nach Eingabebild und Prompt — kurze Experimente mit 0.5, 0.65, 0.75 und 0.85 helfen beim Finden des richtigen Werts.

F: Warum unterscheidet sich img2img-Ergebnis stark von txt2img mit identischem Prompt? img2img startet nicht bei 100% Rauschen, sondern bei einem niedrigeren Rauschpegel, der vom Eingabebild beeinflusst wird. Das bedeutet, die frühen hochrauschigen Steps — die Gesamtkomposition und Farbgebung maßgeblich bestimmen — werden übersprungen. Das Modell optimiert nur im späten, detailorientierten Teil des Denoising-Prozesses, was zu anderen (oft detailtreueren) Ergebnissen führt.


Verwandte Einträge


Weiterführend

  • Rombach, R. et al. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. CVPR.
  • AUTOMATIC1111 img2img Dokumentation:
  • SDNext img2img Guide:
← Zurück zu GenAI & Content Creation
Infotag · 13. Mai · 15:00 Uhr · Vor Ort

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.

Ein halber Nachmittag, der dir drei Jahre Klarheit bringen kann. Kostenlos, unverbindlich, ehrlich.

  • Rundgang durch Studios, Schnitträume und Tonstudio
  • Echte Absolventenfilme sehen
  • 1:1-Beratung zu Bewerbung & BAföG
  • Studierende direkt fragen
  • Kaffee, kein Sales-Pitch
  • Auch online möglich

Platz beim Infotag reservieren

Dauert 30 Sekunden. Bestätigung per E-Mail.
100 % kostenlos · keine Verpflichtung · jederzeit absagbar
Image-to-Image (img2img) — Wiki | Lazi Akademie | Lazi Akademie Esslingen