← Zurück zu GenAI & Content Creation
ControlNet: Depth Map ist ein ControlNet-Preprocessor, der die räumliche Tiefenstruktur eines Referenzbildes als Graustufen-Tiefenkarte extrahiert und so Stable Diffusion in die Lage versetzt, neue Bilder mit identischer räumlicher Anordnung und korrekten Vorder-/Hintergrund-Verhältnissen zu generieren.

Rubrik: GenAI & Content Creation · Unterrubrik: Stable Diffusion · Niveau: Fortgeschritten Synonyme / Auch bekannt als: Depth ControlNet, Tiefenkarten-ControlNet, Depth Preprocessor

Was ist ControlNet: Depth Map?

Der Depth-Map-Preprocessor schätzt die Tiefe jedes Pixels im Bild relativ zur Kamera: Helle Bereiche in der resultierenden Graustu-fenkarte stehen für nahe Objekte, dunkle Bereiche für weit entfernte Elemente (in manchen Modellen auch umgekehrt). Diese Tiefenkarte wird dem ControlNet-Modell übergeben, das Stable Diffusion zwingt, die räumliche Grundstruktur der Szene beizubehalten – unabhängig davon, wie stark Stil, Farbe und Inhalt durch den Prompt verändert werden.

Erklärung

Hinter dem Preprocessor steckt ein neuronales Netz für monokulare Tiefenschätzung. Gängige Modelle sind MiDaS (leicht, schnell, gut für allgemeine Szenen) und DPT (Dense Prediction Transformer) (genauer, besonders für Innen- und Außenarchitektur). In AUTOMATIC1111 und ComfyUI kann zwischen diesen Preprocessoren gewählt werden:

  • depth_midas: Schnell, geeignet für allgemeine Fotos und Porträts
  • depth_leres: Etwas genauer, berücksichtigt auch Hintergrundstrukturen
  • depth_zoe: Metrik-Tiefe, liefert absolut kalibrierte Tiefenwerte – gut bei Architektur und messbaren Räumen
  • depth_hand_refiner: Spezialisiert auf Hände (häufige Problemzone)

Die entstehende Tiefenkarte ist immer ein 8-Bit-Graustufenbild. Das ControlNet-Depth-Modell (z. B. control_v11f1p_sd15_depth) wurde mit Paaren aus Tiefenkarte und Originalbild trainiert und injiziert die Tiefeninformation in den U-Net-Denoising-Prozess.

Der ControlNet Weight-Parameter regelt, wie stark die Tiefenstruktur das Ergebnis beeinflusst. Werte zwischen 0.6 und 0.9 erlauben gleichzeitig räumliche Korrektheit und kreative Freiheit. Werte über 1.2 können zu übermäßig schematischen, geometrischen Bildern führen.

Guidance Start/End ermöglicht, das ControlNet nur in einem Teil der Denoising-Schritte aktiv zu lassen. Ein Start bei 0.0 und Ende bei 0.5 sichert die globale Raumstruktur in der ersten Bildhälfte, lässt aber Details in der zweiten Hälfte frei entstehen.

Tiefenkarten eignen sich hervorragend für:

  • Szenenkomposition mit mehreren räumlichen Ebenen
  • Architektur- und Innenraumvisualisierungen
  • Portraitfotografie mit Bokeh-ähnlicher Tiefenschärfensimulation
  • 3D-Look-Generierung aus 2D-Fotos
  • Umgestaltung von Räumen bei erhaltenem räumlichen Layout

Beispiele

  1. Raumgestaltung: Foto eines leeren Wohnzimmers → Depth Map → Prompt „luxuriöses skandinavisches Interieur, Holzboden, natürliches Licht" → identische Raumstruktur, komplett neues Design.
  2. Architekturstudie: Außenfassade eines Gebäudes → Depth Map → Prompt „futuristische Glasarchitektur, Nacht, beleuchtete Fenster" → Gebäudevolumen exakt erhalten, Stil modernisiert.
  3. Porträt-Neustyling: Brustportrait einer Person → Depth Map → Prompt „oil painting, rembrandt lighting, baroque style" → Vorder-/Hintergrundbeziehung bleibt; Person wirkt plastisch-dimensional.
  4. Produktfoto-Upgrades: Produktfoto auf einfachem Hintergrund → Depth Map → Prompt „product photography, marble surface, luxury studio" → Produktposition und -größe erhalten, Ambiente neu.
  5. Konzeptkarten für Filmsets: Storyboard-Skizze mit erkennbarer Raumtiefe → Depth Map → fotorealistische Szenenvisualisierung mit korrekter Tiefenstaffelung.

In der Praxis

Empfohlener Workflow in AUTOMATIC1111:

  1. Bild in das ControlNet-Panel laden
  2. Preprocessor: depth_midas (Standardwahl) oder depth_zoe (für Architektur) auswählen
  3. Model: control_v11f1p_sd15_depth (SD 1.5) oder SDXL-Depth-Modell wählen
  4. Annotator Preview aktivieren – Tiefenkarte kontrollieren (Vordergrund hell, Hintergrund dunkel)
  5. Weight: 0.7–0.9 je nach gewünschter räumlicher Treue
  6. Guidance End auf 0.7–0.85 setzen, um Detailfreiheit am Ende zu erhalten

Fallstricke:

  • Bilder ohne klaren Tiefenunterschied (z. B. flache Texte, 2D-Grafiken) liefern kaum nutzbare Tiefenkarten.
  • MiDaS tendiert dazu, Spiegel und Glasflächen falsch einzuschätzen.
  • Bei zu hohem Weight verliert das Modell kreative Flexibilität – das Ergebnis wirkt technisch-schematisch.
  • Tiefenkarten von Porträts mit Hintergrundunschärfe können ungenau sein, weil die Kante zwischen Motiv und Hintergrund verwischt ist.

Vergleich & Abgrenzung

MerkmalDepth MapCanny EdgeOpenPose
ErfasstRäumliche TiefenstrukturKanten und KonturenKörperskelett / Posen
StärkeRäumliche KompositionStrukturelle DetailsPersonenposen
SchwächeFlache Szenen ungeeignetKein TiefeninfoNur für Menschen
Ideal fürRäume, Architektur, SzenenObjekte, Logos, GebäudeCharakterfiguren

Depth Map und ControlNet: Canny Edge können kombiniert werden (Multi-ControlNet): Canny liefert die feinen Strukturkanten, Depth die räumliche Staffelung. So entstehen Bilder mit sowohl detaillierten Oberflächen als auch stimmiger Raumwirkung.

Häufige Fragen (FAQ)

Wie verwende ich ControlNet Depth in der Praxis? Das Referenzbild wird ins ControlNet-Panel geladen, Preprocessor auf depth_midas oder depth_zoe gestellt und das passende Depth-ControlNet-Modell ausgewählt. Nach dem Annotator-Preview kann die Tiefenkarte beurteilt werden – helle Bereiche müssen den Vordergrund darstellen. Dann wird der Prompt normal formuliert; das Modell übernimmt die räumliche Struktur automatisch.

Was sind typische Fehler bei ControlNet Depth? Häufig werden falsche Preprocessor-Modell-Kombinationen gewählt (SD-1.5-Depth-Modell mit SDXL-Checkpoint). Außerdem führt zu hoher Weight (>1.2) zu unnatürlich steifen Bildern. Bilder ohne Tiefenkontrast – zum Beispiel flache Illustrations-Scans – liefern nichtssagende Tiefenkarten und sollten durch Img2Img oder ControlNet: Canny Edge ergänzt werden.

Weiterführend

  • ControlNet GitHub (lllyasviel)
  • MiDaS Depth Estimation
  • ZoeDepth Metrik-Tiefe
  • AUTOMATIC1111 ControlNet Extension
← Zurück zu GenAI & Content Creation
Infotag · 13. Mai · 15:00 Uhr · Vor Ort

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.

Ein halber Nachmittag, der dir drei Jahre Klarheit bringen kann. Kostenlos, unverbindlich, ehrlich.

  • Rundgang durch Studios, Schnitträume und Tonstudio
  • Echte Absolventenfilme sehen
  • 1:1-Beratung zu Bewerbung & BAföG
  • Studierende direkt fragen
  • Kaffee, kein Sales-Pitch
  • Auch online möglich

Platz beim Infotag reservieren

Dauert 30 Sekunden. Bestätigung per E-Mail.
100 % kostenlos · keine Verpflichtung · jederzeit absagbar