← Zurück zu GenAI & Content Creation
Automatische Untertitel sind per KI-gestützter Sprach-zu-Text-Erkennung (Speech-to-Text) generierte Texteinblendungen in Videos oder Livestreams, die gesprochene Sprache mit Zeitstempeln versehen und in ein Untertitelformat exportiert werden.

Rubrik: GenAI & Content Creation · Unterrubrik: KI-Workflow & Automatisierung · Niveau: Einsteiger Synonyme / Auch bekannt als: Auto-Untertitel, KI-Untertitelung, Speech-to-Text-Untertitel, Closed Captions (CC), Automated Captions

Was sind automatische Untertitel?

Automatische Untertitel entstehen durch Speech-to-Text-Modelle (STT), die gesprochene Sprache in maschinenlesbaren Text umwandeln und dabei präzise Zeitstempel für den Beginn und das Ende jedes Wortes oder Segments erfassen. Das Ergebnis sind Untertiteldateien in Formaten wie SRT, VTT oder ASS, die in Videoschnitt-Programme importiert oder direkt auf Videoplattformen hochgeladen werden können.

Moderne KI-Modelle erreichen Erkennungsraten von 95–98 % bei klarer Sprache, gutem Mikrofon und geringem Hintergrundlärm. Bei Dialekten, Akzenten, fachspezifischem Vokabular oder schlechter Audioqualität sinkt die Erkennungsrate — manuelle Nachbearbeitung bleibt notwendig.

Erklärung

OpenAI Whisper

Whisper ist ein Open-Source-Spracherkennungsmodell von OpenAI, das 2022 veröffentlicht wurde. Es wurde auf 680.000 Stunden mehrsprachiger Audiodaten trainiert und unterstützt 99 Sprachen. Whisper gilt derzeit als eines der besten frei verfügbaren STT-Modelle.

Modellgrößen: Tiny (39M Parameter), Base (74M), Small (244M), Medium (769M), Large-v3 (1.5B). Größere Modelle sind genauer, aber langsamer und ressourcenintensiver.

Nutzung: Whisper kann lokal ausgeführt werden (Python-Bibliothek) oder über APIs wie AssemblyAI, Replicate oder Groq-Cloud (sehr schnell) genutzt werden. Für Batch-Untertitelung von Videoarchiven ist die lokale GPU-Ausführung kosteneffizienter.

Stärken: Sehr gute Mehrsprachigkeit, robust gegenüber Akzenten, Open Source. Schwächen: Langsam auf CPU, keine Echtzeit-Fähigkeit ohne spezielle Konfiguration.

Descript

Descript ist ein videobasierter Editor, der automatische Transkription als Kernfunktion anbietet. Nach dem Upload eines Videos erscheint das vollständige Transkript als bearbeitbarer Text im Editor.

Besonderheit: Descript kann Video durch Textbearbeitung schneiden. Löscht man einen Satz im Transkript, wird der entsprechende Videoabschnitt entfernt. Das ist revolutionär für die Fein-Überarbeitung von Interviews und Erklärvideos.

Untertitel-Export: Descript exportiert SRT, VTT und eingebettete Captions direkt. Über die "Captions"-Funktion können Untertitel auch als animated Captions (Wort-für-Wort-Highlight) für Social Media gerendert werden.

Qualität: Descript nutzt ein eigenes Whisper-basiertes Modell mit Verbesserungen für englische Sprache. Für Deutsch solide, aber Whisper Large-v3 lokal schlägt Descript in der deutschen Erkennungsgenauigkeit.

CapCut

CapCut (entwickelt von ByteDance, dem TikTok-Mutterkonzern) hat sich als meistgenutztes Tool für automatische Captions auf Social Media etabliert, besonders für TikTok, Instagram Reels und YouTube Shorts.

Auto Captions Feature: Mit einem Klick werden Untertitel generiert und direkt im Video platziert. Schriftart, Größe, Farbe und Animationseffekte sind konfigurierbar. Beliebt ist der "Karaoke"-Stil, bei dem das aktuell gesprochene Wort farblich hervorgehoben wird.

Einschränkungen: CapCut ist primär für mobile Inhalte konzipiert. Die Erkennungsqualität für Deutsch ist gut, aber nicht so präzise wie Whisper. Datenschutzbedenken wegen des ByteDance-Konzernhintergrunds sind für professionelle Nutzer relevant.

Weitere Tools

Riverside.fm: Cloud-basierte Aufnahme und automatische Untertitelung, gut für Podcast-Video. Unterstützt Mehrspuraufnahmen und exportiert SRT.

Zubrr / Submagic: Spezialisiert auf animierte Captions für Social Media, KI-gestützte Untertitelplatzierung und Emoji-Hinzufügung.

Adobe Premiere Pro Speech to Text: Native Whisper-Integration in Premiere Pro (seit 2022). Erstellt ein "Captions"-Track direkt in der Timeline. Gut integriert, aber langsamer als externe Tools.

AssemblyAI: Professionelle STT-API mit Speaker Diarization (Sprechertrennung), Sentimentsanalyse und Inhaltserkennung. Ideal für Broadcast- und Enterprise-Workflows.

Untertitelformate

FormatVerwendungBesonderheit
SRTUniversal, YouTube, VimeoEinfachster Standard
VTT (WebVTT)Browser, HTML5 VideoCSS-Styling möglich
ASS/SSAAnime, advanced stylingFarben, Positionen, Animationen
TTMLBroadcast, ARD/ZDFXML-basierter Broadcast-Standard
CEA-608/708TV-BroadcastNordamerikanischer Standard

Beispiele

Podcast-Produktion: Nach dem Schnitt eines 60-Minuten-Podcast-Episodes wird die Audiodatei an Whisper (lokal, Large-v3-Modell) übergeben. Nach ca. 5 Minuten (mit GPU) liegt ein SRT-File vor. Ein Editor prüft in 30 Minuten stichprobenartig 10 % der Segmente und korrigiert Eigennamen. Das SRT wird zu YouTube hochgeladen und als Textspur eingebunden.

Unternehmensvideos: Ein Unternehmen produziert monatlich 20 Erklärvideos auf Deutsch und Englisch. Descript übernimmt Transkription und Untertitelung beider Sprachversionen. Animierte Captions werden für LinkedIn-Posts generiert.

Archivdigitalisierung: 500 alte VHS-Schulungsvideos werden digitalisiert und mit Whisper batch-untertitelt. Ein Python-Skript verarbeitet alle Videos automatisch und speichert SRT-Files ins Archiv.

In der Praxis

Lokales Whisper Setup (Python): `` pip install openai-whisper whisper meinvideo.mp4 --language German --model large-v3 --output_format srt ``

Qualitätsprüfung-Workflow:

  1. Untertitel generieren (Whisper oder Tool)
  2. SRT-Datei in einem Editor öffnen (z. B. Subtitle Edit — kostenlos)
  3. Stichprobenkontrolle: Eigennamen, Fachbegriffe, Satzgrenzen prüfen
  4. Maximal 42 Zeichen pro Zeile, max. 2 Zeilen pro Untertitelsegment
  5. Lesegeschwindigkeit prüfen: 14–17 Wörter/Minute optimal für Barrierefreiheit
  6. Exportieren und in Video einbetten oder auf Plattform hochladen

Vergleich & Abgrenzung

ToolQualität DeutschPreisBatchExport
Whisper (lokal)Sehr hochKostenlosJaSRT, VTT, JSON
DescriptGutAb 24 USD/MonatBegrenztSRT, VTT
CapCutGutKostenlos / ProNeinEingebettet
Premiere Pro STTGutTeil von Adobe CCJaCaptions-Track
AssemblyAISehr hochAPI, ab 0,37 USD/hJaSRT, JSON

Häufige Fragen (FAQ)

Wie genau sind automatische Untertitel auf Deutsch? Mit Whisper Large-v3 werden bei klarer Sprache und gutem Mikrofon Wort-Fehler-Raten (Word Error Rate, WER) von 3–7 % erreicht. Das entspricht ca. 3–7 Fehler pro 100 Wörtern — gut genug als Ausgangspunkt, aber Korrektur ist nötig.

Erfüllen automatische Untertitel die Barrierefreiheitsanforderungen? Automatisch generierte Untertitel erfüllen die technischen Anforderungen, wenn sie in angemessener Schriftgröße, mit ausreichend Kontrast und in lesbarer Geschwindigkeit eingeblendet werden. Für öffentlich-rechtliche Medien und barrierefreie Websites (WCAG 2.1 AA) ist menschliche Qualitätskontrolle Pflicht.

Kann ich automatische Untertitel in Echtzeit generieren? Ja, aber mit Einschränkungen. Faster-Whisper (optimierte Whisper-Implementierung) und kommerzielle Dienste wie Rev.ai ermöglichen Latenz unter 2 Sekunden. Für Live-TV-Qualität sind spezialisierte Broadcast-Lösungen nötig.

Was kostet ein Stunde automatische Untertitelung? Mit lokalem Whisper: nur Strom und Rechenzeit. Mit Whisper via Groq-API: ca. 0,02 USD/Stunde. Mit AssemblyAI: ca. 0,37 USD/Stunde. Mit professionellen Diensten (Rev.ai): ca. 0,25 USD/Minute = 15 USD/Stunde.

Verwandte Einträge

Weiterführend

  • Radford, Alec et al.: Robust Speech Recognition via Large-Scale Weak Supervision, OpenAI, 2022 (Whisper-Paper)
  • Corrigan, Nina et al.: Guidelines for Subtitle Quality, EBU Technical Review, 2020
  • Díaz Cintas, Jorge & Remael, Aline: Audiovisual Translation: Subtitling, Routledge, 2021
  • National Captioning Institute: Captioning Quality Standards, 2023
  • Pöchhacker, Franz: Introducing Interpreting Studies, Routledge, 2016
← Zurück zu GenAI & Content Creation
Infotag · 13. Mai · 15:00 Uhr · Vor Ort

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.

Ein halber Nachmittag, der dir drei Jahre Klarheit bringen kann. Kostenlos, unverbindlich, ehrlich.

  • Rundgang durch Studios, Schnitträume und Tonstudio
  • Echte Absolventenfilme sehen
  • 1:1-Beratung zu Bewerbung & BAföG
  • Studierende direkt fragen
  • Kaffee, kein Sales-Pitch
  • Auch online möglich

Platz beim Infotag reservieren

Dauert 30 Sekunden. Bestätigung per E-Mail.
100 % kostenlos · keine Verpflichtung · jederzeit absagbar
Automatische Untertitel — Wiki | Lazi Akademie | Lazi Akademie Esslingen