AnimateDiff

AnimateDiff ist ein Plugin-Framework für Stable Diffusion, das durch zusätzliche Motion Module zeitliche Konsistenz zwischen generierten Bildframes herstellt und so hochwertige KI-Animationen aus bestehenden SD-Modellen erzeugt.

Rubrik: GenAI & Content Creation · Unterrubrik: Stable Diffusion · Niveau: Fortgeschritten

Was ist AnimateDiff?

AnimateDiff wurde von Guo et al. (2023) in dem Paper „AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning" vorgestellt. Das zentrale Problem, das AnimateDiff löst: Generiert man mehrere Frames mit identischem Prompt, entstehen konsistente Szenarien, aber inkonsistente Frames, jeder Frame ist ein unabhängiges Bild ohne zeitliche Verbindung.

AnimateDiff löst das durch ein Motion Module: ein zusätzliches neuronales Netzwerk, das in die Attention-Schichten des Stable-Diffusion-U-Nets eingefügt wird und zeitliche Korrelationen zwischen Frames erlernt. Das Motion Module wird auf einem Video-Datensatz trainiert; das Basismodell bleibt dabei unverändert. So kann jedes kompatible SD-Modell (LoRAs, Fine-Tunes) für Videoanimation genutzt werden.

Erklärung

Technischer Aufbau

AnimateDiff modifiziert den Generierungsprozess von Single-Image zu Multi-Frame:

Batch-Generierung im latenten Raum: Statt ein einzelnes Latent werden N Latents (Frames) gleichzeitig generiert
Temporal Attention: Das Motion Module fügt Cross-Frame-Attention-Schichten ein, jeder Frame kann auf seine Nachbarn „achten"
Kohärenter Denoising: Der Denoising-Prozess berücksichtigt zeitliche Abhängigkeiten; Objekte bleiben von Frame zu Frame konsistent

Motion Module Varianten

mm_sd_v15_v2.ckpt: Basismodell für SD 1.5-basierte Animationen. Stabile Bewegungen, gute Allgemeinqualität.

mm_sdxl_v10_beta.ckpt: SDXL-kompatibles Motion Module (in Entwicklung, Community-Preview).

AnimateLCM: Auf Latent Consistency Models abgestimmtes Module, Animationen in 4–8 Steps statt 20+.

SparseCtrl: Erweiterte Variante mit Sparse-Control-Frames, ein Startbild + ein Endbild vorgeben, dazwischen generiert AnimateDiff die Übergangsframes.

AnimateDiff-Lightning: Destilliertes Module für schnelle Generierung.

Prompt Travel

Prompt Travel ist eine AnimateDiff-Technik für Inhaltswandel über Frames:

`` Frame 0: "lush green summer forest, sunlight" Frame 16: "autumn forest, orange leaves, warm light" Frame 32: "winter forest, snow, blue hour" ``

Die Frames interpolieren zwischen den Prompts, ein Sommer-zu-Winter-Übergang über 32 Frames. Diese Technik erzeugt filmische Szenen-Transitionen ohne Schnitt.

Schritt-für-Schritt / Einrichtung

Installation in AUTOMATIC1111

```bash

```

Grundparameter für AnimateDiff (SD 1.5)

``` Motion Module: mmsdv15_v2.ckpt Frames: 16 (Standard; mehr Frames = mehr VRAM und Zeit) FPS: 8 (bei 16 Frames = 2 Sekunden Video) Loop: einmalig oder nahtlos (für GIF-Loops) Format: GIF oder MP4

Sampler: Euler (AnimateDiff empfohlen) oder DPM++ 2M Karras Steps: 20–25 CFG: 7 Auflösung: 512×512 (SD 1.5) oder 768×512 (Widescreen) ```

ComfyUI AnimateDiff-Workflow

`` Load Checkpoint → Apply AnimateDiff Model → Load AnimateDiff Model → KSampler (Video) → VAE Decode (Video) → Save Video / GIF ``

Beispiele (5 konkrete Anwendungsfälle)

Social-Media-Loops für Marken: Animierte Logos, Produkte oder Charaktere als nahtlose GIF-Loops für Instagram und TikTok. Ein einfacher Effekt (Partikel, Licht-Pulsieren, Kamera-Parallax) verleiht statischen Bildern Leben.
Trailer-Animatic für Filmproduktionen: Vor dem Dreh visualisieren Regisseure Storyboard-Shots als animierte Sequenzen. AnimateDiff-Generierungen mit ControlNet-OpenPose-Konditionierung erzeugen grobe Bewegungsvorschauen.
Ambient-Loops für Events: Visuelle Hintergründe für Konferenzen, Messen oder Konzerte. Abstrakte, nahtlose Animationen laufen als Umgebungs-Loop auf großen Displays.
Produktanimationen für E-Commerce: Produkte rotieren, drehen oder werden in einer Szenerie bewegt, ohne 3D-Modelling-Aufwand. Besonders für Hero-Videos auf Landingpages.
KI-Musikvideo-Produktion: Unabhängige Musiker nutzen AnimateDiff für günstige Musikvideo-Produktion. Prompt-Travel erzeugt thematisch passende visuelle Reisen durch verschiedene Szenarien im Rhythmus der Musik.

In der Praxis

VRAM-Anforderungen

Frames	Auflösung	VRAM (SD 1.5)
16	512×512	6–8 GB
16	768×512	8–10 GB
24	512×512	10–12 GB
32	512×512	12–16 GB

Für begrenzte VRAM-Kapazität: Frames auf 8–12 reduzieren, Auflösung auf 512×512 begrenzen, später per Upscaler hochskalieren.

Qualitäts-Tipps

Kamerabewegung: Motion Module erzeugt oft unbeabsichtigte Kamerabewegungen. stable motion, static camera im Prompt reduziert das; spezialisierte Motion LoRAs ermöglichen gezielte Kamerabewegungen (Pan, Zoom, Tilt).
ControlNet + AnimateDiff: OpenPose oder Canny ControlNet kann für Konsistenz über Frames hinweg genutzt werden, besonders bei Charakteranimationen.
AnimateDiff-Lightning für Iteration: Für schnelle Prototypen AnimateDiff-Lightning mit 4–6 Steps nutzen, finale Qualität mit Standard-Module erstellen.
Upscaling animierter Videos: Frame-für-Frame-Upscaling mit ESRGAN oder Hires-Fix auf jeden Frame anwenden (über ComfyUI-Workflow automatisierbar).

Vergleich & Abgrenzung

Tool	Ansatz	Qualität	Kontrolle	Kosten
AnimateDiff	SD + Motion Module	Gut	Hoch	Kostenlos (lokal)
Sora (OpenAI)	Proprietary Video-LDM	Sehr hoch	Mittel	Kostenpflichtig
Runway Gen-3	Proprietär	Sehr hoch	Mittel	Kostenpflichtig
Kling AI	Proprietär	Hoch	Mittel	Kostenpflichtig
Deforum	SD + Keyframe-Interpolation	Mittel	Sehr hoch	Kostenlos (lokal)

AnimateDiff ist die beste Open-Source-Option für konsistente KI-Animationen mit voller lokaler Kontrolle. Für höchste Qualität sind proprietäre Dienste wie Runway oder Kling überlegen.

Häufige Fragen (FAQ)

F: Warum flimmern meine AnimateDiff-Frames so stark? Flimmern (Flickering) entsteht durch fehlende zeitliche Konsistenz. Häufigste Ursachen: (1) Zu hohe Denoising-Stärke bei img2img-basierten Workflows; (2) Sampler-Wahl, Euler oder DDIM sind stabiler als ancestrale Sampler; (3) Zu viel CFG, auf 5–7 reduzieren; (4) AnimateDiff-spezifische Einstellungen: Context-Überlappung erhöhen (bei langen Sequenzen).

F: Wie lang kann eine AnimateDiff-Sequenz sein? Das Standard-Motion-Module ist auf 16 Frames (bei 8 FPS = 2 Sekunden) trainiert. Für längere Sequenzen wird „Context-Batching" genutzt: 16-Frame-Fenster werden mit Überlappung sequenziell verarbeitet. ComfyUI-AnimateDiff-Evolved unterstützt bis zu 256 Frames (32 Sekunden bei 8 FPS), allerdings mit zunehmendem Qualitätsverlust bei Konsistenz über lange Zeitspannen.

Weiterführend

Guo, Y. et al. (2023). AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning.
AnimateDiff GitHub:
ComfyUI AnimateDiff Evolved:
Hugging Face AnimateDiff Modelle:

Was ist AnimateDiff?

Erklärung

Technischer Aufbau

Motion Module Varianten

Prompt Travel

Schritt-für-Schritt / Einrichtung

Installation in AUTOMATIC1111

Grundparameter für AnimateDiff (SD 1.5)

ComfyUI AnimateDiff-Workflow

Beispiele (5 konkrete Anwendungsfälle)

In der Praxis

VRAM-Anforderungen

Qualitäts-Tipps

Vergleich & Abgrenzung

Häufige Fragen (FAQ)

Verwandte Einträge

Weiterführend

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.

Platz beim Infotag reservieren

AnimateDiff

Was ist AnimateDiff?

Erklärung

Technischer Aufbau

Motion Module Varianten

Prompt Travel

Schritt-für-Schritt / Einrichtung

Installation in AUTOMATIC1111

Grundparameter für AnimateDiff (SD 1.5)

ComfyUI AnimateDiff-Workflow

Beispiele (5 konkrete Anwendungsfälle)

In der Praxis

VRAM-Anforderungen

Qualitäts-Tipps

Vergleich & Abgrenzung

Häufige Fragen (FAQ)

Verwandte Einträge

Weiterführend

Sei am Mittwoch dabei.Bring Eltern oder Freunde mit.

Platz beim Infotag reservieren

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.