← Zurück zu GenAI & Content Creation
Upscaling in Stable Diffusion bezeichnet die Methoden zur Skalierung KI-generierter Bilder auf höhere Auflösungen — von einfachem ESRGAN-Upscaling bis hin zu SD-basiertem Tile-Upscaling, das gleichzeitig fehlende Details generiert.

Rubrik: GenAI & Content Creation · Unterrubrik: Stable Diffusion · Niveau: Fortgeschritten


Was ist Upscaling in Stable Diffusion?

Stable-Diffusion-Modelle generieren Bilder in ihrer trainierten Auflösung (512×512 bei SD 1.5, 1024×1024 bei SDXL). Für professionelle Anwendungen — Printmedien, großformatige Displays, hochwertige Webpräsentation — reicht das oft nicht aus. Upscaling-Methoden skalieren diese Bilder auf 2K, 4K oder höher.

Das Besondere an KI-basiertem Upscaling im Vergleich zu klassischer Interpolation (Bilinear, Bicubic): Es wird nicht nur vorhandene Information auf mehr Pixel verteilt, sondern aktiv neues Detail in die hochskalierte Version generiert. ESRGAN erlernt Texturen aus echten Fotos; SD-Tile-Upscaling generiert im Kontext des Gesamtbilds neue, kohärente Details.


Erklärung

Methode 1: Hires Fix (A1111)

Hires Fix ist eine zweistufige Methode, die direkt in AUTOMATIC1111 integriert ist:

  1. Niedrige Auflösung generieren: SD generiert zunächst bei 512×512 (oder Modell-Optimum) — diese Phase bestimmt Komposition und Gesamtstruktur
  2. Hochskalieren: Das niedrigauflösende Bild wird via Upscaler (ESRGAN, Latent Upscale etc.) auf die Zielauflösung gebracht
  3. Denoising-Durchgang: Das hochskalierte Bild wird mit reduzierter Denoising Strength (0.4–0.6) erneut durch SD geleitet — das Modell fügt hochfrequente Details hinzu

`` Hires Fix Einstellungen (A1111): ☑ Enable Hires. fix Upscaler: R-ESRGAN 4x+ (für Fotos) oder 4x_Ultrasharp (für Illustration) Hires steps: 15–25 Denoising strength: 0.45 Upscale by: 2x (512→1024) oder 1.5x (SDXL 1024→1536) ``

Methode 2: Klassische Upscaler (ESRGAN-Familie)

ESRGAN (Enhanced Super-Resolution GAN): Trainiert auf realen Bild-Paaren (niedrig-/hochauflösend). Lernt, fehlende Details zu halluzinieren. Besonders gut bei Fotos.

Wichtige ESRGAN-Modelle im A1111-Extras-Tab:

ModellOptimiert für
ESRGAN 4xAllgemein
R-ESRGAN 4x+Fotorealismus
R-ESRGAN 4x+ Anime6BAnime/Illustration
SwinIR 4xDetail-Erhalt
4x_UltrasharpScharfe Linien, Illustration
4x-UltraSharpAlternative mit hohem Detail
LDSRLatent Diffusion Super Resolution (langsam, hochqualitativ)

Methode 3: Ultimate SD Upscale (Extension)

Ultimate SD Upscale ist die leistungsfähigste Methode für sehr hohe Auflösungen. Das Bild wird in Tiles (Kacheln) aufgeteilt; jede Kachel wird separat durch SD geleitet (mit Inpainting-artiger Denoising-Methode). Durch Überlappung der Tiles werden nahtlose Übergänge gewährleistet.

``` Vorteile:

  • Beliebige Ausgabegröße (4K, 8K+)
  • Kein VRAM-Limit (Tile-Größe = VRAM-Anforderung)
  • Kohärente Details über das gesamte Bild

Einstellungen: Target Size: 2048×2048 oder 4096×4096 Tile width/height: 512 (SD 1.5) oder 1024 (SDXL) Tile overlap: 32–64 px (verhindert sichtbare Tile-Grenzen) Padding: 32 px Seam Fix: Half tile offset (empfohlen) Denoising strength: 0.25–0.4 (zu hoch = Kompositionsverlust) ```

Methode 4: Latent Upscale (img2img intern)

Innerhalb von img2img: „Resize mode: Just resize (latent upscale)" skaliert das Latent selbst, bevor es durch den Decoder geleitet wird. Schnell, aber weniger detailreich als ESRGAN + Hires Fix.

ControlNet Tile für Upscaling

Der ControlNet Tile-Preprocessor teilt das Bild in Tiles auf und erzeugt für jede Kachel eine lokale Konditionierungsmaske, die verhindert, dass Details aus anderen Bildbereichen hineingemischt werden. Kombiniert mit img2img erzeugt das sehr kohärente, hochaufgelöste Bilder.


Schritt-für-Schritt / Einrichtung

Workflow: 512px → 4K via Ultimate SD Upscale

```

  1. Bild bei 512×512 generieren (Komposition und Gesamtbild optimieren)
  2. In img2img laden
  3. Script: "Ultimate SD Upscale" auswählen
  4. Einstellungen:

- Custom size: 4096 × 4096 (oder 3840×2160 für 4K UHD) - Upscaler: R-ESRGAN 4x+ - Tile size: 512 (SD 1.5) oder 1024 (SDXL) - Tile overlap: 48 - Seam fix: Half tile offset

  1. Denoising strength: 0.3
  2. Steps: 20, CFG: 7
  3. Gleicher oder angepasster Prompt wie Original

```

Hires Fix in txt2img (einfachste Methode)

```

  1. txt2img
  2. Normalen Prompt und Parameter einstellen
  3. Hires Fix aktivieren:

- Upscaler: R-ESRGAN 4x+ Anime6B (Illustration) oder R-ESRGAN 4x+ (Foto) - Hires steps: 20 - Denoising: 0.45 - Upscale by: 2.0 (512→1024)

  1. Generieren — ein Schritt liefert direkt das hochaufgelöste Bild

```


Beispiele (5 konkrete Anwendungsfälle)

  1. Druckfertige Illustration: Ein Buchillustrator generiert zunächst schnell bei 512×512, iteriert Komposition und Stil, und skaliert das finale Bild via Ultimate SD Upscale auf 4096×4096 für Druckqualität (300 DPI bei 35×35 cm).
  2. Hintergrundbilder für Webangebote: Social-Media-Agenturen generieren 512er-Bilder für schnelles Briefing und skalieren finale Kandidaten auf 3840×2160 (4K UHD) für professionelle Ausgabe.
  3. Poster-Produktion: Eventveranstalter generieren Motiv-Entwürfe in 512px, wählen den besten aus und skalieren ihn auf DIN-A0-Druckauflösung — mit generierten Details, die weit besser als reine Interpolation sind.
  4. Upscaling älterer SD-Bilder: Ein Nutzer hat eine Bibliothek älterer 512×512-Generierungen und möchte diese für neue Verwendungszwecke aufwerten. Batch-Upscaling via A1111-API und Ultimate SD Upscale verarbeitet hunderte Bilder automatisch.
  5. Video-Frame-Upscaling: AnimateDiff-generierte Frames (512×512) werden per Batch-Skript frame-weise durch ESRGAN hochskaliert und dann zu einem HD-Video zusammengefügt.

In der Praxis

Welche Methode wann?

SituationEmpfohlene Methode
Schneller Workflow, direktes HDHires Fix (in txt2img)
Maximale Auflösung, 4K+Ultimate SD Upscale
Nur Upscaling ohne SD (schnell)ESRGAN im Extras-Tab
Detail-Kohärenz wichtigControlNet Tile + img2img
Batch-VerarbeitungA1111 API + Ultimate SD Upscale

Denoising Strength beim Upscaling

Zu hohe Denoising Strength bei Upscaling-Durchgängen verändert Komposition und Charakter des Originalbilds ungewollt:

  • 0.2–0.3: Minimale Details, erhält Original fast vollständig
  • 0.35–0.45: Empfohlener Standard — gute Details bei Kompositionserhalt
  • 0.5–0.6: Spürbare Veränderungen — nur für bewusste Überarbeitung

Vergleich & Abgrenzung

MethodeQualitätSpeedVRAMMax. Auflösung
ESRGAN (Extras)GutSehr schnellGeringBeliebig
Hires FixSehr gutMittelMittel2–3× Original
Ultimate SD UpscaleSehr gutLangsamGering (Tiles)Beliebig
LDSRAusgezeichnetSehr langsamMittel4× Original
Topaz Gigapixel AIAusgezeichnetMittelMittelBeliebig

Häufige Fragen (FAQ)

F: Warum erscheinen neue Objekte oder Personen nach dem Upscaling? Bei zu hoher Denoising Strength im zweiten Generierungsdurchgang „halluziniert" das Modell neue Inhalte in große, texturarme Flächen (klarer Himmel, einfarbige Wände). Lösung: Denoising auf 0.3–0.4 reduzieren. Alternativ ControlNet Tile nutzen, das lokale Kohärenz erzwingt.

F: Welcher ESRGAN-Upscaler ist der beste? Es gibt keinen universellen Besten. R-ESRGAN 4x+ ist für Fotoaufnahmen exzellent. R-ESRGAN 4x+ Anime6B funktioniert besser für Illustrationen. 4x_Ultrasharp bevorzugt, wenn maximale Kantenschärfe wichtig ist (z. B. Logos, Grafiken). Am besten: In A1111 Extras alle relevanten Upscaler auf einem Testbild vergleichen.


Verwandte Einträge


Weiterführend

  • Wang, X. et al. (2018). ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks. ECCVW.
  • Ultimate SD Upscale GitHub:
  • Civitai Upscaler-Übersicht:
  • AUTOMATIC1111 Extras:
← Zurück zu GenAI & Content Creation
Infotag · 13. Mai · 15:00 Uhr · Vor Ort

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.

Ein halber Nachmittag, der dir drei Jahre Klarheit bringen kann. Kostenlos, unverbindlich, ehrlich.

  • Rundgang durch Studios, Schnitträume und Tonstudio
  • Echte Absolventenfilme sehen
  • 1:1-Beratung zu Bewerbung & BAföG
  • Studierende direkt fragen
  • Kaffee, kein Sales-Pitch
  • Auch online möglich

Platz beim Infotag reservieren

Dauert 30 Sekunden. Bestätigung per E-Mail.
100 % kostenlos · keine Verpflichtung · jederzeit absagbar
Upscaling in Stable Diffusion — Wiki | Lazi Akademie | Lazi Akademie Esslingen