← Zurück zu GenAI & Content Creation
Automatische KI-Untertitel sind computer-generierte Untertitelspuren, die mittels Spracherkennungsmodellen (primär Whisper-basiert) gesprochene Sprache in synchronisierten Text umwandeln und in Videoformate eingebettet oder als separate Untertiteldateien exportiert werden.

Rubrik: GenAI & Content Creation · Unterrubrik: KI-Workflows & Automatisierung · Niveau: Einsteiger Synonyme / Auch bekannt als: Auto-Captions, KI-Captions, Closed Captions (CC), Subtitles, Untertitelung


Was sind automatische KI-Untertitel?

Untertitel sind längst kein optionales Extra mehr: Über 85 % der Social-Media-Videos werden laut Studie von Verizon Media (2019) ohne Ton konsumiert – eine Zahl, die im Business-Content-Bereich noch höher liegt. Gleichzeitig sind Untertitel für Barrierefreiheit (hörgeschädigte Nutzer) gesetzlich relevant.

KI-gestützte Untertitel haben die manuelle Untertitelung, die früher 8–10x Echtzeit erforderte, auf Minuten reduziert. Moderne Whisper-basierte Lösungen erreichen dabei Qualitätsniveaus, die für Social Media und Online-Content ohne umfangreiche Nachbearbeitung nutzbar sind.


Erklärung

Untertitel-Typen

Closed Captions (CC): Ein-/ausschaltbare Untertitel als separate Datei (SRT, VTT, ASS). Standard für YouTube, Vimeo, Streaming-Plattformen.

Open Captions / Burned-in Captions: Direkt ins Video eingebrannte Untertitel – nicht ausschaltbar. Standard für Instagram Reels, TikTok, Facebook-Feed-Videos.

SDH (Subtitles for the Deaf and Hard of Hearing): Erweiterte Untertitel mit Geräuschbeschreibungen ([Musik], [Lachen]) für vollständige Barrierefreiheit.

Tools für automatische Untertitel (2024)

Descript 5.x:

  • Transkription + Untertitel in einem Workflow
  • Stilisierung: Schriftart, Größe, Position, Farbe, Animationsstil
  • Export: SRT, VTT, MP4 (burned-in)
  • Speaker-Labels in Untertiteln möglich
  • Besonderheit: Untertitel werden bearbeitet wie Text im Editor

Submagic (2024):

  • Spezialisiert auf Social-Media-Kurzvideos (Reels, TikTok, Shorts)
  • Automatisch stylisierte "Viral Captions" mit Wort-Highlighting
  • Emojis und Zoom-Animationen
  • Preis: Ab 20 $/Monat
  • Beste Wahl für: Kurzformat-Content

CapCut (App + Desktop, 2024):

  • Kostenlose App mit sehr gutem automatischen Untertitel-Feature
  • "Auto Captions": Transkription + Styling in 2 Klicks
  • Vorlagen für TikTok-Captions (farbige, animierte Untertitel)
  • Einschränkung: Datenschutz (ByteDance/TikTok-eigentümerschaft)

Adobe Premiere Pro Captions (2024):

  • Integrierte Spracherkennung via Adobe Sensei
  • Direkte SRT-Generierung in der Timeline
  • Stylisierbare Caption-Styles
  • Für bestehende Premiere-Nutzer ohne Extra-Kosten

VEED.io (2024):

  • Browser-basiert, kein Download nötig
  • Auto-Captions mit Styling
  • Multi-Sprachen-Untertitel
  • Preis: Ab 18 $/Monat

HappyScribe Subtitles:

  • Professionelle Qualität, Fokus auf Medienproduktion
  • Manueller Korrektur-Workflow integriert
  • SRT, VTT, EBU-STL Export
  • Preis: Pay-per-use (12 €/Stunde) oder Abo

YouTube / Instagram automatische Untertitel:

  • Kostenlos, direkt in Plattform
  • Qualität: Gut für Englisch, akzeptabel für Deutsch
  • Manuelle Korrekturoption vorhanden

Untertitel-Formate

FormatVerwendungBesonderheit
SRT (SubRip)UniversalEinfachstes Format, weite Kompatibilität
VTT (WebVTT)Web-VideoUnterstützt Styling via CSS
ASS/SSAAnime, komplexes StylingSehr flexibles Styling
EBU-STLBroadcastEuropäischer TV-Standard
TTMLBroadcast + StreamingW3C-Standard, Netflix-kompatibel

Gestaltung effektiver Untertitel

Position: Standardmäßig unten zentriert. Für Social Media: unteres Drittel (nicht ganz unten – Platz für Like-Button)

Schriftgröße: Mindestens 14–16 Pixel bei 1080p. Social-Media-Untertitel: deutlich größer (24–32 px).

Zeichen pro Zeile: Maximum 42 Zeichen für Lesbarkeit (SMPTE-Standard).

Anzeigedauer: Mindestens 1–1,5 Sekunden pro Karte, maximal 7 Sekunden.

Wort-Highlighting (Viral Captions): Trend auf TikTok und Instagram: Aktuell gesprochenes Wort wird farblich hervorgehoben. Erhöht Engagement nachweislich. Tools: Submagic, CapCut, Opus Clip.


Beispiele

Beispiel 1: YouTube-Tutorial (15 Minuten)

  1. Videodatei in Descript hochladen
  2. Automatische Transkription abwarten (~2 Min)
  3. Transkript korrigieren (10 Min für 15-Min-Video)
  4. Untertitel-Stil konfigurieren
  5. SRT-Export für YouTube-Upload

Zeitbedarf: 15 Minuten (früher: 2+ Stunden manuelle Untertitelung)

Beispiel 2: Instagram-Reel (60 Sekunden)

  1. Rohvideo in CapCut oder Submagic laden
  2. Auto-Captions aktivieren → sofortige Generierung
  3. Fehlerhafte Wörter anpassen (5 Min)
  4. Caption-Style wählen (farbig, animiert)
  5. MP4 mit eingebrannten Untertiteln exportieren

Beispiel 3: Mehrsprachige Untertitel (Internationalisierung)

  1. Englisches Video mit Whisper transkribieren
  2. Transkript via Claude oder DeepL in Deutsch, Spanisch, Französisch übersetzen
  3. Übersetzungen als SRT-Dateien formatieren
  4. Alle Sprachversionen auf YouTube hochladen

In der Praxis

Untertitel und Barrierefreiheit

In Deutschland gilt das Behindertengleichstellungsgesetz (BGG) und seit 2025 der European Accessibility Act (EAA) für digitale Dienstleistungen. Für öffentliche Stellen und viele Unternehmen sind barrierefreie Untertitel rechtlich relevant.

Anforderungen für barrierefreie Untertitel:

  • Vollständige Transkription (keine Kürzungen)
  • Korrekte Sprecherzuordnung bei mehreren Personen
  • Geräuschbeschreibungen bei relevanten Non-Speech-Elementen
  • Ausreichende Kontrastrate (WCAG AA: mind. 4,5:1)

Workflow-Automatisierung

Mit n8n oder Make.com lässt sich ein vollautomatischer Untertitel-Workflow erstellen:

  1. Neues Video in Google Drive hochgeladen → Trigger
  2. OpenAI Whisper API transkribiert Audio
  3. SRT-Datei wird generiert und gespeichert
  4. YouTube Data API lädt SRT automatisch hoch
  5. Slack-Benachrichtigung an Team

Vergleich & Abgrenzung

ToolQualität (DE)StylingPlattformPreis
DescriptSehr gutMittelDesktopAb 0 $
SubmagicGutSehr gutWebAb 20 $/Mo
CapCutGutSehr gutApp/DesktopKostenlos
VEED.ioGutGutWebAb 18 $/Mo
Adobe PremiereSehr gutSehr gutDesktopIn CC-Abo
YouTube autoAkzeptabelNeinYouTubeKostenlos

Häufige Fragen (FAQ)

Warum sind die automatischen Untertitel auf YouTube oft ungenau? YouTube nutzt ein älteres Google-Spracherkennungsmodell, das insbesondere bei Dialekten, Fremdwörtern und schlechter Audioqualität Fehler macht. Whisper-basierte Tools sind 2024 deutlich genauer.

Kann ich Untertitel rückwirkend zu alten Videos hinzufügen? Ja. Videodatei in Descript, VEED.io oder Submagic hochladen → Untertitel generieren → als SRT exportieren → auf YouTube/Vimeo nachträglich hochladen.

Wie viel Zeit spart automatische Untertitelung wirklich? Manuelle Untertitelung dauert 8–10x die Videolänge. Automatische Transkription + Korrektur: ~1,5–2x Videolänge. Für 15-Minuten-Videos: 30 Minuten statt 2 Stunden.


Verwandte Einträge


Weiterführend

  • WCAG 2.1 (2023): Understanding Success Criterion 1.2.2 – Captions (Prerecorded).
  • Bundesministerium für Arbeit und Soziales (2024): European Accessibility Act.
  • Verizon Media (2019): How Consumers are Watching Video Without Sound. Research Report.
  • Submagic (2024): Auto Captions for Social Media.
← Zurück zu GenAI & Content Creation
Infotag · 13. Mai · 15:00 Uhr · Vor Ort

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.

Ein halber Nachmittag, der dir drei Jahre Klarheit bringen kann. Kostenlos, unverbindlich, ehrlich.

  • Rundgang durch Studios, Schnitträume und Tonstudio
  • Echte Absolventenfilme sehen
  • 1:1-Beratung zu Bewerbung & BAföG
  • Studierende direkt fragen
  • Kaffee, kein Sales-Pitch
  • Auch online möglich

Platz beim Infotag reservieren

Dauert 30 Sekunden. Bestätigung per E-Mail.
100 % kostenlos · keine Verpflichtung · jederzeit absagbar