Automatische KI-Untertitel sind computer-generierte Untertitelspuren, die mittels Spracherkennungsmodellen (primär Whisper-basiert) gesprochene Sprache in synchronisierten Text umwandeln und in Videoformate eingebettet oder als separate Untertiteldateien exportiert werden.
Rubrik: GenAI & Content Creation · Unterrubrik: KI-Workflows & Automatisierung · Niveau: Einsteiger Synonyme / Auch bekannt als: Auto-Captions, KI-Captions, Closed Captions (CC), Subtitles, Untertitelung
Was sind automatische KI-Untertitel?
Untertitel sind längst kein optionales Extra mehr: Über 85 % der Social-Media-Videos werden laut Studie von Verizon Media (2019) ohne Ton konsumiert – eine Zahl, die im Business-Content-Bereich noch höher liegt. Gleichzeitig sind Untertitel für Barrierefreiheit (hörgeschädigte Nutzer) gesetzlich relevant.
KI-gestützte Untertitel haben die manuelle Untertitelung, die früher 8–10x Echtzeit erforderte, auf Minuten reduziert. Moderne Whisper-basierte Lösungen erreichen dabei Qualitätsniveaus, die für Social Media und Online-Content ohne umfangreiche Nachbearbeitung nutzbar sind.
Erklärung
Untertitel-Typen
Closed Captions (CC): Ein-/ausschaltbare Untertitel als separate Datei (SRT, VTT, ASS). Standard für YouTube, Vimeo, Streaming-Plattformen.
Open Captions / Burned-in Captions: Direkt ins Video eingebrannte Untertitel – nicht ausschaltbar. Standard für Instagram Reels, TikTok, Facebook-Feed-Videos.
SDH (Subtitles for the Deaf and Hard of Hearing): Erweiterte Untertitel mit Geräuschbeschreibungen ([Musik], [Lachen]) für vollständige Barrierefreiheit.
Tools für automatische Untertitel (2024)
Descript 5.x:
- Transkription + Untertitel in einem Workflow
- Stilisierung: Schriftart, Größe, Position, Farbe, Animationsstil
- Export: SRT, VTT, MP4 (burned-in)
- Speaker-Labels in Untertiteln möglich
- Besonderheit: Untertitel werden bearbeitet wie Text im Editor
Submagic (2024):
- Spezialisiert auf Social-Media-Kurzvideos (Reels, TikTok, Shorts)
- Automatisch stylisierte "Viral Captions" mit Wort-Highlighting
- Emojis und Zoom-Animationen
- Preis: Ab 20 $/Monat
- Beste Wahl für: Kurzformat-Content
CapCut (App + Desktop, 2024):
- Kostenlose App mit sehr gutem automatischen Untertitel-Feature
- "Auto Captions": Transkription + Styling in 2 Klicks
- Vorlagen für TikTok-Captions (farbige, animierte Untertitel)
- Einschränkung: Datenschutz (ByteDance/TikTok-eigentümerschaft)
Adobe Premiere Pro Captions (2024):
- Integrierte Spracherkennung via Adobe Sensei
- Direkte SRT-Generierung in der Timeline
- Stylisierbare Caption-Styles
- Für bestehende Premiere-Nutzer ohne Extra-Kosten
VEED.io (2024):
- Browser-basiert, kein Download nötig
- Auto-Captions mit Styling
- Multi-Sprachen-Untertitel
- Preis: Ab 18 $/Monat
HappyScribe Subtitles:
- Professionelle Qualität, Fokus auf Medienproduktion
- Manueller Korrektur-Workflow integriert
- SRT, VTT, EBU-STL Export
- Preis: Pay-per-use (12 €/Stunde) oder Abo
YouTube / Instagram automatische Untertitel:
- Kostenlos, direkt in Plattform
- Qualität: Gut für Englisch, akzeptabel für Deutsch
- Manuelle Korrekturoption vorhanden
Untertitel-Formate
| Format | Verwendung | Besonderheit |
|---|---|---|
| SRT (SubRip) | Universal | Einfachstes Format, weite Kompatibilität |
| VTT (WebVTT) | Web-Video | Unterstützt Styling via CSS |
| ASS/SSA | Anime, komplexes Styling | Sehr flexibles Styling |
| EBU-STL | Broadcast | Europäischer TV-Standard |
| TTML | Broadcast + Streaming | W3C-Standard, Netflix-kompatibel |
Gestaltung effektiver Untertitel
Position: Standardmäßig unten zentriert. Für Social Media: unteres Drittel (nicht ganz unten – Platz für Like-Button)
Schriftgröße: Mindestens 14–16 Pixel bei 1080p. Social-Media-Untertitel: deutlich größer (24–32 px).
Zeichen pro Zeile: Maximum 42 Zeichen für Lesbarkeit (SMPTE-Standard).
Anzeigedauer: Mindestens 1–1,5 Sekunden pro Karte, maximal 7 Sekunden.
Wort-Highlighting (Viral Captions): Trend auf TikTok und Instagram: Aktuell gesprochenes Wort wird farblich hervorgehoben. Erhöht Engagement nachweislich. Tools: Submagic, CapCut, Opus Clip.
Beispiele
Beispiel 1: YouTube-Tutorial (15 Minuten)
- Videodatei in Descript hochladen
- Automatische Transkription abwarten (~2 Min)
- Transkript korrigieren (10 Min für 15-Min-Video)
- Untertitel-Stil konfigurieren
- SRT-Export für YouTube-Upload
Zeitbedarf: 15 Minuten (früher: 2+ Stunden manuelle Untertitelung)
Beispiel 2: Instagram-Reel (60 Sekunden)
- Rohvideo in CapCut oder Submagic laden
- Auto-Captions aktivieren → sofortige Generierung
- Fehlerhafte Wörter anpassen (5 Min)
- Caption-Style wählen (farbig, animiert)
- MP4 mit eingebrannten Untertiteln exportieren
Beispiel 3: Mehrsprachige Untertitel (Internationalisierung)
- Englisches Video mit Whisper transkribieren
- Transkript via Claude oder DeepL in Deutsch, Spanisch, Französisch übersetzen
- Übersetzungen als SRT-Dateien formatieren
- Alle Sprachversionen auf YouTube hochladen
In der Praxis
Untertitel und Barrierefreiheit
In Deutschland gilt das Behindertengleichstellungsgesetz (BGG) und seit 2025 der European Accessibility Act (EAA) für digitale Dienstleistungen. Für öffentliche Stellen und viele Unternehmen sind barrierefreie Untertitel rechtlich relevant.
Anforderungen für barrierefreie Untertitel:
- Vollständige Transkription (keine Kürzungen)
- Korrekte Sprecherzuordnung bei mehreren Personen
- Geräuschbeschreibungen bei relevanten Non-Speech-Elementen
- Ausreichende Kontrastrate (WCAG AA: mind. 4,5:1)
Workflow-Automatisierung
Mit n8n oder Make.com lässt sich ein vollautomatischer Untertitel-Workflow erstellen:
- Neues Video in Google Drive hochgeladen → Trigger
- OpenAI Whisper API transkribiert Audio
- SRT-Datei wird generiert und gespeichert
- YouTube Data API lädt SRT automatisch hoch
- Slack-Benachrichtigung an Team
Vergleich & Abgrenzung
| Tool | Qualität (DE) | Styling | Plattform | Preis |
|---|---|---|---|---|
| Descript | Sehr gut | Mittel | Desktop | Ab 0 $ |
| Submagic | Gut | Sehr gut | Web | Ab 20 $/Mo |
| CapCut | Gut | Sehr gut | App/Desktop | Kostenlos |
| VEED.io | Gut | Gut | Web | Ab 18 $/Mo |
| Adobe Premiere | Sehr gut | Sehr gut | Desktop | In CC-Abo |
| YouTube auto | Akzeptabel | Nein | YouTube | Kostenlos |
Häufige Fragen (FAQ)
Warum sind die automatischen Untertitel auf YouTube oft ungenau? YouTube nutzt ein älteres Google-Spracherkennungsmodell, das insbesondere bei Dialekten, Fremdwörtern und schlechter Audioqualität Fehler macht. Whisper-basierte Tools sind 2024 deutlich genauer.
Kann ich Untertitel rückwirkend zu alten Videos hinzufügen? Ja. Videodatei in Descript, VEED.io oder Submagic hochladen → Untertitel generieren → als SRT exportieren → auf YouTube/Vimeo nachträglich hochladen.
Wie viel Zeit spart automatische Untertitelung wirklich? Manuelle Untertitelung dauert 8–10x die Videolänge. Automatische Transkription + Korrektur: ~1,5–2x Videolänge. Für 15-Minuten-Videos: 30 Minuten statt 2 Stunden.
Verwandte Einträge
- KI-Transkription: Whisper, Descript, Grain
- KI in der Videobearbeitung: CapCut, Descript, Runway
- KI-Workflow für Videoproduktion
- KI-Workflow für Podcast-Produktion
Weiterführend
- WCAG 2.1 (2023): Understanding Success Criterion 1.2.2 – Captions (Prerecorded).
- Bundesministerium für Arbeit und Soziales (2024): European Accessibility Act.
- Verizon Media (2019): How Consumers are Watching Video Without Sound. Research Report.
- Submagic (2024): Auto Captions for Social Media.
