← Zurück zu GenAI & Content Creation
AnimateDiff ist ein Plugin-Framework für Stable Diffusion, das durch zusätzliche Motion Module zeitliche Konsistenz zwischen generierten Bildframes herstellt und so hochwertige KI-Animationen aus bestehenden SD-Modellen erzeugt.

Rubrik: GenAI & Content Creation · Unterrubrik: Stable Diffusion · Niveau: Fortgeschritten


Was ist AnimateDiff?

AnimateDiff wurde von Guo et al. (2023) in dem Paper „AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning" vorgestellt. Das zentrale Problem, das AnimateDiff löst: Generiert man mehrere Frames mit identischem Prompt, entstehen konsistente Szenarien, aber inkonsistente Frames — jeder Frame ist ein unabhängiges Bild ohne zeitliche Verbindung.

AnimateDiff löst das durch ein Motion Module — ein zusätzliches neuronales Netzwerk, das in die Attention-Schichten des Stable-Diffusion-U-Nets eingefügt wird und zeitliche Korrelationen zwischen Frames erlernt. Das Motion Module wird auf einem Video-Datensatz trainiert; das Basismodell bleibt dabei unverändert. So kann jedes kompatible SD-Modell (LoRAs, Fine-Tunes) für Videoanimation genutzt werden.


Erklärung

Technischer Aufbau

AnimateDiff modifiziert den Generierungsprozess von Single-Image zu Multi-Frame:

  1. Batch-Generierung im latenten Raum: Statt ein einzelnes Latent werden N Latents (Frames) gleichzeitig generiert
  2. Temporal Attention: Das Motion Module fügt Cross-Frame-Attention-Schichten ein — jeder Frame kann auf seine Nachbarn „achten"
  3. Kohärenter Denoising: Der Denoising-Prozess berücksichtigt zeitliche Abhängigkeiten; Objekte bleiben von Frame zu Frame konsistent

Motion Module Varianten

mm_sd_v15_v2.ckpt: Basismodell für SD 1.5-basierte Animationen. Stabile Bewegungen, gute Allgemeinqualität.

mm_sdxl_v10_beta.ckpt: SDXL-kompatibles Motion Module (in Entwicklung, Community-Preview).

AnimateLCM: Auf Latent Consistency Models abgestimmtes Module — Animationen in 4–8 Steps statt 20+.

SparseCtrl: Erweiterte Variante mit Sparse-Control-Frames — ein Startbild + ein Endbild vorgeben, dazwischen generiert AnimateDiff die Übergangsframes.

AnimateDiff-Lightning: Destilliertes Module für schnelle Generierung.

Prompt Travel

Prompt Travel ist eine AnimateDiff-Technik für Inhaltswandel über Frames:

`` Frame 0: "lush green summer forest, sunlight" Frame 16: "autumn forest, orange leaves, warm light" Frame 32: "winter forest, snow, blue hour" ``

Die Frames interpolieren zwischen den Prompts — ein Sommer-zu-Winter-Übergang über 32 Frames. Diese Technik erzeugt filmische Szenen-Transitionen ohne Schnitt.


Schritt-für-Schritt / Einrichtung

Installation in AUTOMATIC1111

```bash

```

Grundparameter für AnimateDiff (SD 1.5)

``` Motion Module: mmsdv15_v2.ckpt Frames: 16 (Standard; mehr Frames = mehr VRAM und Zeit) FPS: 8 (bei 16 Frames = 2 Sekunden Video) Loop: einmalig oder nahtlos (für GIF-Loops) Format: GIF oder MP4

Sampler: Euler (AnimateDiff empfohlen) oder DPM++ 2M Karras Steps: 20–25 CFG: 7 Auflösung: 512×512 (SD 1.5) oder 768×512 (Widescreen) ```

ComfyUI AnimateDiff-Workflow

`` Load Checkpoint → Apply AnimateDiff Model → Load AnimateDiff Model → KSampler (Video) → VAE Decode (Video) → Save Video / GIF ``


Beispiele (5 konkrete Anwendungsfälle)

  1. Social-Media-Loops für Marken: Animierte Logos, Produkte oder Charaktere als nahtlose GIF-Loops für Instagram und TikTok. Ein einfacher Effekt (Partikel, Licht-Pulsieren, Kamera-Parallax) verleiht statischen Bildern Leben.
  2. Trailer-Animatic für Filmproduktionen: Vor dem Dreh visualisieren Regisseure Storyboard-Shots als animierte Sequenzen. AnimateDiff-Generierungen mit ControlNet-OpenPose-Konditionierung erzeugen grobe Bewegungsvorschauen.
  3. Ambient-Loops für Events: Visuelle Hintergründe für Konferenzen, Messen oder Konzerte. Abstrakte, nahtlose Animationen laufen als Umgebungs-Loop auf großen Displays.
  4. Produktanimationen für E-Commerce: Produkte rotieren, drehen oder werden in einer Szenerie bewegt — ohne 3D-Modelling-Aufwand. Besonders für Hero-Videos auf Landingpages.
  5. KI-Musikvideo-Produktion: Unabhängige Musiker nutzen AnimateDiff für günstige Musikvideo-Produktion. Prompt-Travel erzeugt thematisch passende visuelle Reisen durch verschiedene Szenarien im Rhythmus der Musik.

In der Praxis

VRAM-Anforderungen

FramesAuflösungVRAM (SD 1.5)
16512×5126–8 GB
16768×5128–10 GB
24512×51210–12 GB
32512×51212–16 GB

Für begrenzte VRAM-Kapazität: Frames auf 8–12 reduzieren, Auflösung auf 512×512 begrenzen, später per Upscaler hochskalieren.

Qualitäts-Tipps

  • Kamerabewegung: Motion Module erzeugt oft unbeabsichtigte Kamerabewegungen. stable motion, static camera im Prompt reduziert das; spezialisierte Motion LoRAs ermöglichen gezielte Kamerabewegungen (Pan, Zoom, Tilt).
  • ControlNet + AnimateDiff: OpenPose oder Canny ControlNet kann für Konsistenz über Frames hinweg genutzt werden — besonders bei Charakteranimationen.
  • AnimateDiff-Lightning für Iteration: Für schnelle Prototypen AnimateDiff-Lightning mit 4–6 Steps nutzen, finale Qualität mit Standard-Module erstellen.
  • Upscaling animierter Videos: Frame-für-Frame-Upscaling mit ESRGAN oder Hires-Fix auf jeden Frame anwenden (über ComfyUI-Workflow automatisierbar).

Vergleich & Abgrenzung

ToolAnsatzQualitätKontrolleKosten
AnimateDiffSD + Motion ModuleGutHochKostenlos (lokal)
Sora (OpenAI)Proprietary Video-LDMSehr hochMittelKostenpflichtig
Runway Gen-3ProprietärSehr hochMittelKostenpflichtig
Kling AIProprietärHochMittelKostenpflichtig
DeforumSD + Keyframe-InterpolationMittelSehr hochKostenlos (lokal)

AnimateDiff ist die beste Open-Source-Option für konsistente KI-Animationen mit voller lokaler Kontrolle. Für höchste Qualität sind proprietäre Dienste wie Runway oder Kling überlegen.


Häufige Fragen (FAQ)

F: Warum flimmern meine AnimateDiff-Frames so stark? Flimmern (Flickering) entsteht durch fehlende zeitliche Konsistenz. Häufigste Ursachen: (1) Zu hohe Denoising-Stärke bei img2img-basierten Workflows; (2) Sampler-Wahl — Euler oder DDIM sind stabiler als ancestrale Sampler; (3) Zu viel CFG — auf 5–7 reduzieren; (4) AnimateDiff-spezifische Einstellungen: Context-Überlappung erhöhen (bei langen Sequenzen).

F: Wie lang kann eine AnimateDiff-Sequenz sein? Das Standard-Motion-Module ist auf 16 Frames (bei 8 FPS = 2 Sekunden) trainiert. Für längere Sequenzen wird „Context-Batching" genutzt: 16-Frame-Fenster werden mit Überlappung sequenziell verarbeitet. ComfyUI-AnimateDiff-Evolved unterstützt bis zu 256 Frames (32 Sekunden bei 8 FPS), allerdings mit zunehmendem Qualitätsverlust bei Konsistenz über lange Zeitspannen.


Verwandte Einträge


Weiterführend

  • Guo, Y. et al. (2023). AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning.
  • AnimateDiff GitHub:
  • ComfyUI AnimateDiff Evolved:
  • Hugging Face AnimateDiff Modelle:
← Zurück zu GenAI & Content Creation
Infotag · 13. Mai · 15:00 Uhr · Vor Ort

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.

Ein halber Nachmittag, der dir drei Jahre Klarheit bringen kann. Kostenlos, unverbindlich, ehrlich.

  • Rundgang durch Studios, Schnitträume und Tonstudio
  • Echte Absolventenfilme sehen
  • 1:1-Beratung zu Bewerbung & BAföG
  • Studierende direkt fragen
  • Kaffee, kein Sales-Pitch
  • Auch online möglich

Platz beim Infotag reservieren

Dauert 30 Sekunden. Bestätigung per E-Mail.
100 % kostenlos · keine Verpflichtung · jederzeit absagbar
AnimateDiff — Wiki | Lazi Akademie | Lazi Akademie Esslingen