Upscaling in Stable Diffusion bezeichnet die Methoden zur Skalierung KI-generierter Bilder auf höhere Auflösungen — von einfachem ESRGAN-Upscaling bis hin zu SD-basiertem Tile-Upscaling, das gleichzeitig fehlende Details generiert.
Rubrik: GenAI & Content Creation · Unterrubrik: Stable Diffusion · Niveau: Fortgeschritten
Was ist Upscaling in Stable Diffusion?
Stable-Diffusion-Modelle generieren Bilder in ihrer trainierten Auflösung (512×512 bei SD 1.5, 1024×1024 bei SDXL). Für professionelle Anwendungen — Printmedien, großformatige Displays, hochwertige Webpräsentation — reicht das oft nicht aus. Upscaling-Methoden skalieren diese Bilder auf 2K, 4K oder höher.
Das Besondere an KI-basiertem Upscaling im Vergleich zu klassischer Interpolation (Bilinear, Bicubic): Es wird nicht nur vorhandene Information auf mehr Pixel verteilt, sondern aktiv neues Detail in die hochskalierte Version generiert. ESRGAN erlernt Texturen aus echten Fotos; SD-Tile-Upscaling generiert im Kontext des Gesamtbilds neue, kohärente Details.
Erklärung
Methode 1: Hires Fix (A1111)
Hires Fix ist eine zweistufige Methode, die direkt in AUTOMATIC1111 integriert ist:
- Niedrige Auflösung generieren: SD generiert zunächst bei 512×512 (oder Modell-Optimum) — diese Phase bestimmt Komposition und Gesamtstruktur
- Hochskalieren: Das niedrigauflösende Bild wird via Upscaler (ESRGAN, Latent Upscale etc.) auf die Zielauflösung gebracht
- Denoising-Durchgang: Das hochskalierte Bild wird mit reduzierter Denoising Strength (0.4–0.6) erneut durch SD geleitet — das Modell fügt hochfrequente Details hinzu
`` Hires Fix Einstellungen (A1111): ☑ Enable Hires. fix Upscaler: R-ESRGAN 4x+ (für Fotos) oder 4x_Ultrasharp (für Illustration) Hires steps: 15–25 Denoising strength: 0.45 Upscale by: 2x (512→1024) oder 1.5x (SDXL 1024→1536) ``
Methode 2: Klassische Upscaler (ESRGAN-Familie)
ESRGAN (Enhanced Super-Resolution GAN): Trainiert auf realen Bild-Paaren (niedrig-/hochauflösend). Lernt, fehlende Details zu halluzinieren. Besonders gut bei Fotos.
Wichtige ESRGAN-Modelle im A1111-Extras-Tab:
| Modell | Optimiert für |
|---|---|
| ESRGAN 4x | Allgemein |
| R-ESRGAN 4x+ | Fotorealismus |
| R-ESRGAN 4x+ Anime6B | Anime/Illustration |
| SwinIR 4x | Detail-Erhalt |
| 4x_Ultrasharp | Scharfe Linien, Illustration |
| 4x-UltraSharp | Alternative mit hohem Detail |
| LDSR | Latent Diffusion Super Resolution (langsam, hochqualitativ) |
Methode 3: Ultimate SD Upscale (Extension)
Ultimate SD Upscale ist die leistungsfähigste Methode für sehr hohe Auflösungen. Das Bild wird in Tiles (Kacheln) aufgeteilt; jede Kachel wird separat durch SD geleitet (mit Inpainting-artiger Denoising-Methode). Durch Überlappung der Tiles werden nahtlose Übergänge gewährleistet.
``` Vorteile:
- Beliebige Ausgabegröße (4K, 8K+)
- Kein VRAM-Limit (Tile-Größe = VRAM-Anforderung)
- Kohärente Details über das gesamte Bild
Einstellungen: Target Size: 2048×2048 oder 4096×4096 Tile width/height: 512 (SD 1.5) oder 1024 (SDXL) Tile overlap: 32–64 px (verhindert sichtbare Tile-Grenzen) Padding: 32 px Seam Fix: Half tile offset (empfohlen) Denoising strength: 0.25–0.4 (zu hoch = Kompositionsverlust) ```
Methode 4: Latent Upscale (img2img intern)
Innerhalb von img2img: „Resize mode: Just resize (latent upscale)" skaliert das Latent selbst, bevor es durch den Decoder geleitet wird. Schnell, aber weniger detailreich als ESRGAN + Hires Fix.
ControlNet Tile für Upscaling
Der ControlNet Tile-Preprocessor teilt das Bild in Tiles auf und erzeugt für jede Kachel eine lokale Konditionierungsmaske, die verhindert, dass Details aus anderen Bildbereichen hineingemischt werden. Kombiniert mit img2img erzeugt das sehr kohärente, hochaufgelöste Bilder.
Schritt-für-Schritt / Einrichtung
Workflow: 512px → 4K via Ultimate SD Upscale
```
- Bild bei 512×512 generieren (Komposition und Gesamtbild optimieren)
- In img2img laden
- Script: "Ultimate SD Upscale" auswählen
- Einstellungen:
- Custom size: 4096 × 4096 (oder 3840×2160 für 4K UHD) - Upscaler: R-ESRGAN 4x+ - Tile size: 512 (SD 1.5) oder 1024 (SDXL) - Tile overlap: 48 - Seam fix: Half tile offset
- Denoising strength: 0.3
- Steps: 20, CFG: 7
- Gleicher oder angepasster Prompt wie Original
```
Hires Fix in txt2img (einfachste Methode)
```
- txt2img
- Normalen Prompt und Parameter einstellen
- Hires Fix aktivieren:
- Upscaler: R-ESRGAN 4x+ Anime6B (Illustration) oder R-ESRGAN 4x+ (Foto) - Hires steps: 20 - Denoising: 0.45 - Upscale by: 2.0 (512→1024)
- Generieren — ein Schritt liefert direkt das hochaufgelöste Bild
```
Beispiele (5 konkrete Anwendungsfälle)
- Druckfertige Illustration: Ein Buchillustrator generiert zunächst schnell bei 512×512, iteriert Komposition und Stil, und skaliert das finale Bild via Ultimate SD Upscale auf 4096×4096 für Druckqualität (300 DPI bei 35×35 cm).
- Hintergrundbilder für Webangebote: Social-Media-Agenturen generieren 512er-Bilder für schnelles Briefing und skalieren finale Kandidaten auf 3840×2160 (4K UHD) für professionelle Ausgabe.
- Poster-Produktion: Eventveranstalter generieren Motiv-Entwürfe in 512px, wählen den besten aus und skalieren ihn auf DIN-A0-Druckauflösung — mit generierten Details, die weit besser als reine Interpolation sind.
- Upscaling älterer SD-Bilder: Ein Nutzer hat eine Bibliothek älterer 512×512-Generierungen und möchte diese für neue Verwendungszwecke aufwerten. Batch-Upscaling via A1111-API und Ultimate SD Upscale verarbeitet hunderte Bilder automatisch.
- Video-Frame-Upscaling: AnimateDiff-generierte Frames (512×512) werden per Batch-Skript frame-weise durch ESRGAN hochskaliert und dann zu einem HD-Video zusammengefügt.
In der Praxis
Welche Methode wann?
| Situation | Empfohlene Methode |
|---|---|
| Schneller Workflow, direktes HD | Hires Fix (in txt2img) |
| Maximale Auflösung, 4K+ | Ultimate SD Upscale |
| Nur Upscaling ohne SD (schnell) | ESRGAN im Extras-Tab |
| Detail-Kohärenz wichtig | ControlNet Tile + img2img |
| Batch-Verarbeitung | A1111 API + Ultimate SD Upscale |
Denoising Strength beim Upscaling
Zu hohe Denoising Strength bei Upscaling-Durchgängen verändert Komposition und Charakter des Originalbilds ungewollt:
0.2–0.3: Minimale Details, erhält Original fast vollständig0.35–0.45: Empfohlener Standard — gute Details bei Kompositionserhalt0.5–0.6: Spürbare Veränderungen — nur für bewusste Überarbeitung
Vergleich & Abgrenzung
| Methode | Qualität | Speed | VRAM | Max. Auflösung |
|---|---|---|---|---|
| ESRGAN (Extras) | Gut | Sehr schnell | Gering | Beliebig |
| Hires Fix | Sehr gut | Mittel | Mittel | 2–3× Original |
| Ultimate SD Upscale | Sehr gut | Langsam | Gering (Tiles) | Beliebig |
| LDSR | Ausgezeichnet | Sehr langsam | Mittel | 4× Original |
| Topaz Gigapixel AI | Ausgezeichnet | Mittel | Mittel | Beliebig |
Häufige Fragen (FAQ)
F: Warum erscheinen neue Objekte oder Personen nach dem Upscaling? Bei zu hoher Denoising Strength im zweiten Generierungsdurchgang „halluziniert" das Modell neue Inhalte in große, texturarme Flächen (klarer Himmel, einfarbige Wände). Lösung: Denoising auf 0.3–0.4 reduzieren. Alternativ ControlNet Tile nutzen, das lokale Kohärenz erzwingt.
F: Welcher ESRGAN-Upscaler ist der beste? Es gibt keinen universellen Besten. R-ESRGAN 4x+ ist für Fotoaufnahmen exzellent. R-ESRGAN 4x+ Anime6B funktioniert besser für Illustrationen. 4x_Ultrasharp bevorzugt, wenn maximale Kantenschärfe wichtig ist (z. B. Logos, Grafiken). Am besten: In A1111 Extras alle relevanten Upscaler auf einem Testbild vergleichen.
Verwandte Einträge
- AUTOMATIC1111 — Hires Fix und Extras-Tab-Upscaling in A1111
- ComfyUI Workflows — Ultimate SD Upscale in ComfyUI-Workflows
- AnimateDiff — Upscaling für animierte Video-Frames
Weiterführend
- Wang, X. et al. (2018). ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks. ECCVW.
- Ultimate SD Upscale GitHub:
- Civitai Upscaler-Übersicht:
- AUTOMATIC1111 Extras:
