Automatische Untertitel

Automatische Untertitel sind per KI-gestützter Sprach-zu-Text-Erkennung (Speech-to-Text) generierte Texteinblendungen in Videos oder Livestreams, die gesprochene Sprache mit Zeitstempeln versehen und in ein Untertitelformat exportiert werden.

Rubrik: GenAI & Content Creation · Unterrubrik: KI-Workflow & Automatisierung · Niveau: Einsteiger Synonyme / Auch bekannt als: Auto-Untertitel, KI-Untertitelung, Speech-to-Text-Untertitel, Closed Captions (CC), Automated Captions

Was sind automatische Untertitel?

Automatische Untertitel entstehen durch Speech-to-Text-Modelle (STT), die gesprochene Sprache in maschinenlesbaren Text umwandeln und dabei präzise Zeitstempel für den Beginn und das Ende jedes Wortes oder Segments erfassen. Das Ergebnis sind Untertiteldateien in Formaten wie SRT, VTT oder ASS, die in Videoschnitt-Programme importiert oder direkt auf Videoplattformen hochgeladen werden können.

Moderne KI-Modelle erreichen Erkennungsraten von 95–98 % bei klarer Sprache, gutem Mikrofon und geringem Hintergrundlärm. Bei Dialekten, Akzenten, fachspezifischem Vokabular oder schlechter Audioqualität sinkt die Erkennungsrate, manuelle Nachbearbeitung bleibt notwendig.

Erklärung

OpenAI Whisper

Whisper ist ein Open-Source-Spracherkennungsmodell von OpenAI, das 2022 veröffentlicht wurde. Es wurde auf 680.000 Stunden mehrsprachiger Audiodaten trainiert und unterstützt 99 Sprachen. Whisper gilt derzeit als eines der besten frei verfügbaren STT-Modelle.

Modellgrößen: Tiny (39M Parameter), Base (74M), Small (244M), Medium (769M), Large-v3 (1.5B). Größere Modelle sind genauer, aber langsamer und ressourcenintensiver.

Nutzung: Whisper kann lokal ausgeführt werden (Python-Bibliothek) oder über APIs wie AssemblyAI, Replicate oder Groq-Cloud (sehr schnell) genutzt werden. Für Batch-Untertitelung von Videoarchiven ist die lokale GPU-Ausführung kosteneffizienter.

Stärken: Sehr gute Mehrsprachigkeit, robust gegenüber Akzenten, Open Source. Schwächen: Langsam auf CPU, keine Echtzeit-Fähigkeit ohne spezielle Konfiguration.

Descript

Descript ist ein videobasierter Editor, der automatische Transkription als Kernfunktion anbietet. Nach dem Upload eines Videos erscheint das vollständige Transkript als bearbeitbarer Text im Editor.

Besonderheit: Descript kann Video durch Textbearbeitung schneiden. Löscht man einen Satz im Transkript, wird der entsprechende Videoabschnitt entfernt. Das ist revolutionär für die Fein-Überarbeitung von Interviews und Erklärvideos.

Untertitel-Export: Descript exportiert SRT, VTT und eingebettete Captions direkt. Über die "Captions"-Funktion können Untertitel auch als animated Captions (Wort-für-Wort-Highlight) für Social Media gerendert werden.

Qualität: Descript nutzt ein eigenes Whisper-basiertes Modell mit Verbesserungen für englische Sprache. Für Deutsch solide, aber Whisper Large-v3 lokal schlägt Descript in der deutschen Erkennungsgenauigkeit.

CapCut

CapCut (entwickelt von ByteDance, dem TikTok-Mutterkonzern) hat sich als meistgenutztes Tool für automatische Captions auf Social Media etabliert, besonders für TikTok, Instagram Reels und YouTube Shorts.

Auto Captions Feature: Mit einem Klick werden Untertitel generiert und direkt im Video platziert. Schriftart, Größe, Farbe und Animationseffekte sind konfigurierbar. Beliebt ist der "Karaoke"-Stil, bei dem das aktuell gesprochene Wort farblich hervorgehoben wird.

Einschränkungen: CapCut ist primär für mobile Inhalte konzipiert. Die Erkennungsqualität für Deutsch ist gut, aber nicht so präzise wie Whisper. Datenschutzbedenken wegen des ByteDance-Konzernhintergrunds sind für professionelle Nutzer relevant.

Weitere Tools

Riverside.fm: Cloud-basierte Aufnahme und automatische Untertitelung, gut für Podcast-Video. Unterstützt Mehrspuraufnahmen und exportiert SRT.

Zubrr / Submagic: Spezialisiert auf animierte Captions für Social Media, KI-gestützte Untertitelplatzierung und Emoji-Hinzufügung.

Adobe Premiere Pro Speech to Text: Native Whisper-Integration in Premiere Pro (seit 2022). Erstellt ein "Captions"-Track direkt in der Timeline. Gut integriert, aber langsamer als externe Tools.

AssemblyAI: Professionelle STT-API mit Speaker Diarization (Sprechertrennung), Sentimentsanalyse und Inhaltserkennung. Ideal für Broadcast- und Enterprise-Workflows.

Untertitelformate

Format	Verwendung	Besonderheit
SRT	Universal, YouTube, Vimeo	Einfachster Standard
VTT (WebVTT)	Browser, HTML5 Video	CSS-Styling möglich
ASS/SSA	Anime, advanced styling	Farben, Positionen, Animationen
TTML	Broadcast, ARD/ZDF	XML-basierter Broadcast-Standard
CEA-608/708	TV-Broadcast	Nordamerikanischer Standard

Beispiele

Podcast-Produktion: Nach dem Schnitt eines 60-Minuten-Podcast-Episodes wird die Audiodatei an Whisper (lokal, Large-v3-Modell) übergeben. Nach ca. 5 Minuten (mit GPU) liegt ein SRT-File vor. Ein Editor prüft in 30 Minuten stichprobenartig 10 % der Segmente und korrigiert Eigennamen. Das SRT wird zu YouTube hochgeladen und als Textspur eingebunden.

Unternehmensvideos: Ein Unternehmen produziert monatlich 20 Erklärvideos auf Deutsch und Englisch. Descript übernimmt Transkription und Untertitelung beider Sprachversionen. Animierte Captions werden für LinkedIn-Posts generiert.

Archivdigitalisierung: 500 alte VHS-Schulungsvideos werden digitalisiert und mit Whisper batch-untertitelt. Ein Python-Skript verarbeitet alle Videos automatisch und speichert SRT-Files ins Archiv.

In der Praxis

Lokales Whisper Setup (Python): `` pip install openai-whisper whisper meinvideo.mp4 --language German --model large-v3 --output_format srt ``

Qualitätsprüfung-Workflow:

Untertitel generieren (Whisper oder Tool)
SRT-Datei in einem Editor öffnen (z. B. Subtitle Edit, kostenlos)
Stichprobenkontrolle: Eigennamen, Fachbegriffe, Satzgrenzen prüfen
Maximal 42 Zeichen pro Zeile, max. 2 Zeilen pro Untertitelsegment
Lesegeschwindigkeit prüfen: 14–17 Wörter/Minute optimal für Barrierefreiheit
Exportieren und in Video einbetten oder auf Plattform hochladen

Vergleich & Abgrenzung

Tool	Qualität Deutsch	Preis	Batch	Export
Whisper (lokal)	Sehr hoch	Kostenlos	Ja	SRT, VTT, JSON
Descript	Gut	Ab 24 USD/Monat	Begrenzt	SRT, VTT
CapCut	Gut	Kostenlos / Pro	Nein	Eingebettet
Premiere Pro STT	Gut	Teil von Adobe CC	Ja	Captions-Track
AssemblyAI	Sehr hoch	API, ab 0,37 USD/h	Ja	SRT, JSON

Häufige Fragen (FAQ)

Wie genau sind automatische Untertitel auf Deutsch? Mit Whisper Large-v3 werden bei klarer Sprache und gutem Mikrofon Wort-Fehler-Raten (Word Error Rate, WER) von 3–7 % erreicht. Das entspricht ca. 3–7 Fehler pro 100 Wörtern, gut genug als Ausgangspunkt, aber Korrektur ist nötig.

Erfüllen automatische Untertitel die Barrierefreiheitsanforderungen? Automatisch generierte Untertitel erfüllen die technischen Anforderungen, wenn sie in angemessener Schriftgröße, mit ausreichend Kontrast und in lesbarer Geschwindigkeit eingeblendet werden. Für öffentlich-rechtliche Medien und barrierefreie Websites (WCAG 2.1 AA) ist menschliche Qualitätskontrolle Pflicht.

Kann ich automatische Untertitel in Echtzeit generieren? Ja, aber mit Einschränkungen. Faster-Whisper (optimierte Whisper-Implementierung) und kommerzielle Dienste wie Rev.ai ermöglichen Latenz unter 2 Sekunden. Für Live-TV-Qualität sind spezialisierte Broadcast-Lösungen nötig.

Was kostet ein Stunde automatische Untertitelung? Mit lokalem Whisper: nur Strom und Rechenzeit. Mit Whisper via Groq-API: ca. 0,02 USD/Stunde. Mit AssemblyAI: ca. 0,37 USD/Stunde. Mit professionellen Diensten (Rev.ai): ca. 0,25 USD/Minute = 15 USD/Stunde.

Weiterführend

Radford, Alec et al.: Robust Speech Recognition via Large-Scale Weak Supervision, OpenAI, 2022 (Whisper-Paper)
Corrigan, Nina et al.: Guidelines for Subtitle Quality, EBU Technical Review, 2020
Díaz Cintas, Jorge & Remael, Aline: Audiovisual Translation: Subtitling, Routledge, 2021
National Captioning Institute: Captioning Quality Standards, 2023
Pöchhacker, Franz: Introducing Interpreting Studies, Routledge, 2016

Was sind automatische Untertitel?

Erklärung

OpenAI Whisper

Descript

CapCut

Weitere Tools

Untertitelformate

Beispiele

In der Praxis

Vergleich & Abgrenzung

Häufige Fragen (FAQ)

Verwandte Einträge

Weiterführend

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.

Platz beim Infotag reservieren

Automatische Untertitel

Was sind automatische Untertitel?

Erklärung

OpenAI Whisper

Descript

CapCut

Weitere Tools

Untertitelformate

Beispiele

In der Praxis

Vergleich & Abgrenzung

Häufige Fragen (FAQ)

Verwandte Einträge

Weiterführend

Sei am Mittwoch dabei.Bring Eltern oder Freunde mit.

Platz beim Infotag reservieren

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.