Transkription bezeichnet die Umwandlung von gesprochenem Audio oder Video in geschriebenen Text; Untertitel sind zeitlich synchronisierte Textelemente, die Audioinhalte für sehende Zuschauerinnen und Zuschauer ohne Ton zugänglich machen.
Rubrik: Audio & Podcast · Unterrubrik: Podcast · Niveau: Einsteiger Synonyme / Auch bekannt als: Speech-to-Text, Automatic Speech Recognition (ASR), Closed Captions, Captions
Was sind Transkription und Untertitel?
Transkription und Untertitel sind zwei Seiten derselben Medaille: Beide wandeln gesprochene Sprache in Text um, dienen jedoch unterschiedlichen Zwecken. Die Transkription erzeugt lesbaren Volltext, ideal für SEO, Barrierefreiheit und Content-Repurposing. Untertitel sind zeitgestempelte Textblöcke, die synchron zum Video oder Audio angezeigt werden.
Für Podcast-Produzentinnen und Content-Creator sind beide Formate heute unverzichtbar: Transkripte verbessern die Auffindbarkeit über Suchmaschinen; Untertitel erhöhen Reichweite in sozialen Netzwerken, wo die meisten Videos ohne Ton konsumiert werden.
Erklärung
KI-Transkriptions-Tools im Überblick
#### OpenAI Whisper (kostenlos, Open Source)
Whisper ist ein von OpenAI (2022) veröffentlichtes Open-Source-Spracherkennungsmodell und gilt als qualitativ bestes frei verfügbares ASR-System (Radford et al., 2022). Es unterstützt über 50 Sprachen, darunter Deutsch mit guter Erkennungsqualität.
Nutzung: Whisper läuft lokal auf dem eigenen Rechner (Python-Umgebung) oder über webbasierte Frontends (z. B. Whisper Transcription auf HuggingFace, oder lokal mit whisper audio.mp3 --language German).
Stärken:
- Kostenlos, keine Datenschutzbedenken (lokale Verarbeitung möglich)
- Sehr gute Genauigkeit, auch bei Fachjargon und verschiedenen Akzenten
- Unterstützt Timestamping (für Untertitel-Export)
- Export als VTT, SRT, TXT, JSON
Schwächen: Erfordert technisches Setup (Python/CLI) für die Offline-Nutzung; keine grafische Oberfläche im Original; Verarbeitung großer Dateien kann auf schwacher Hardware langsam sein.
Empfohlen für: Technisch versierte Nutzer, Datenschutz-sensible Produktionen, kostenlose Nutzung.
#### Descript
Descript (→ Descript MCP) integriert Transkription direkt in seinen Schnitt-Workflow. Jede hochgeladene Audiodatei wird automatisch transkribiert; der Schnitt erfolgt über die Textbearbeitung.
Stärken: Nahtlose Integration in Podcast-Workflow; automatische Identifikation verschiedener Sprecher (Diarization); Filler-Word-Removal auf Basis des Transkripts.
Schwächen: Kostenpflichtig (ca. 24 $/Monat für Pro); Deutsche Genauigkeit ca. 85–90 % (Stand 2024, verbessert aber noch unter Englisch).
#### Otter.ai
Cloud-basiertes Transkriptions-Tool mit Fokus auf Meetings und Gespräche. Echtzeit-Transkription möglich. Stärken bei englischsprachigen Inhalten; Deutsch seit 2023 unterstützt, aber noch begrenzte Qualität.
Kosten: Kostenlos (300 Minuten/Monat), Pro ab ca. 10 $/Monat.
#### Notta
Notta bietet KI-Transkription für über 100 Sprachen inklusive Deutsch. Besonderheit: Echtzeit-Übersetzung beim Transkribieren. Für internationale Podcast-Formate oder mehrsprachige Produktionen interessant.
Kosten: Kostenlos (3 Stunden/Monat), Pro ab ca. 14 $/Monat.
#### Rev
Rev bietet sowohl automatische (KI-basierte) als auch menschliche Transkription. Die menschliche Transkription (von spezialisierten Transcriptionists) erreicht nahezu 100 % Genauigkeit auch bei schwierigen Audios.
Kosten: KI-Transkription ca. 0,25 $/Minute; menschliche Transkription ca. 1,50 $/Minute.
Empfohlen für: Hochwertige Produktionen, rechtlich relevante Transkripte, schwierige Audioqualität.
Genauigkeit bei Deutsch
Die Erkennungsgenauigkeit von ASR-Systemen wird als Word Error Rate (WER) gemessen, niedriger WER = bessere Genauigkeit.
Richtwerte (2024) für Deutsch:
- Whisper Large v3: WER ca. 5–8 % für klares Hochdeutsch (Radford et al., 2022; Koenecke et al., 2020)
- Descript: WER ca. 8–12 % für Deutsch
- Google Speech-to-Text (Cloud-API): WER ca. 6–10 %
Faktoren, die die Genauigkeit reduzieren: starke Dialekte, Fachjargon, Eigennamen, schlechte Audioqualität, Hintergrundgeräusche, mehrere Sprecher gleichzeitig.
Praxistipp: Nach der automatischen Transkription immer Korrekturlesen (Proof-Reading). Typische Fehler: Eigennamen falsch, homophone Wörter verwechselt (z. B. „weise" vs. „Weise"), fehlende Satzzeichen.
Transkript für SEO nutzen
Ein vollständiges Episoden-Transkript auf der eigenen Podcast-Website veröffentlicht gibt Suchmaschinen Zugriff auf den gesamten Inhalt einer Episode. Das führt zu:
- Long-Tail-Keyword-Rankings: Jede Episode rankt potenziell für hunderte spezifische Suchanfragen.
- Featured Snippets: Klar strukturierte Antworten im Transkript können als Google-Snippets erscheinen.
- Verweildauer und Backlinks: Qualitativ hochwertige Transkripte werden von anderen Websites verlinkt.
Best Practices für SEO-Transkripte:
- Transkript als eigene Seite (nicht als Fließtext im Blog-Post), formatiert mit Absätzen und Zwischenüberschriften
- H2-Überschriften für Haupt-Gesprächsblöcke einbauen
- Kapitel-Timestamps im Transkript verlinken auf die entsprechende Timecode-Position
Automatische Untertitel: YouTube, Instagram, SRT-Dateien
YouTube: YouTube generiert automatisch Untertitel für hochgeladene Videos mit guter Audioqualität. Genauigkeit auf Deutsch ca. 85–90 %. Empfehlung: Automatisch generierte Untertitel manuell nachkorrigieren und als eigene Untertitelspur speichern.
Instagram Reels: Instagram bietet seit 2022 automatische Untertitelung für Reels an. Aktivierung: Bei Reel-Upload auf „Untertitel" tippen.
SRT-Dateien (SubRip Text): SRT ist das meistverbreitete Untertitel-Dateiformat. Eine SRT-Datei enthält nummerierte Blöcke mit Timecode und Text:
``` 1 00:00:03,500 --> 00:00:06,000 Willkommen zum Podcast der Lazi-Akademie.
2 00:00:06,200 --> 00:00:09,500 Heute sprechen wir über KI im Bildungsbereich. ```
SRT-Dateien können in YouTube, Vimeo, Instagram und die meisten Video-Plattformen hochgeladen werden.
SRT-Erstellung:
- Whisper exportiert SRT direkt:
whisper audio.mp3 --output_format srt - Descript exportiert SRT für Video-Projekte
- Manuell: Adobe Premiere Pro, DaVinci Resolve, oder online: HappyScribe, Rev
Beispiele
- Podcast-Transkript mit Whisper (kostenlos):
pip install openai-whisper→whisper episode47.mp3 --language German --output_format txt,srt→ Transkript und SRT-Datei in unter 5 Minuten. - Descript-Workflow: Episode hochladen → automatisches Transkript → Filler-Word-Removal → SRT für YouTube-Upload exportieren.
- YouTube-Untertitel korrigieren: Auto-Captions aktiviert → CC-Editor öffnen → systematisch Eigennamen und Fachbegriffe korrigieren → als eigene Spur speichern.
- SEO-Transkript-Seite: 60-Minuten-Interview-Transkript (ca. 8.000 Wörter) auf eigener URL mit strukturierten H2-Überschriften → innerhalb von 3 Monaten 500 monatliche organische Besuche.
- Instagram-Reel mit Untertiteln: Audiogramm aus Descript, SRT-Datei erzeugt, in CapCut hochgeladen → Schriftartendesign angepasst → Reichweite +40 % gegenüber Clips ohne Untertitel.
In der Praxis
Schnellster Workflow für Einsteiger:
- Riverside.fm oder Descript: Episode hochladen.
- Automatisches Transkript erzeugen lassen.
- Transkript durchlesen, Eigennamen korrigieren.
- Als TXT auf Website veröffentlichen (SEO).
- Als SRT für YouTube/Social-Media-Videos exportieren.
Zeitaufwand:
- Automatische Transkription: 2–10 Minuten (je nach Dateilänge und Tool)
- Korrekturlesen einer 45-Minuten-Episode: 20–45 Minuten
- Formatierung für Website: 15–30 Minuten
Vergleich & Abgrenzung
| Tool | Kosten | Deutsch-Qualität | SRT-Export | Datenschutz |
|---|---|---|---|---|
| Whisper (lokal) | Kostenlos | Sehr gut | Ja | Sehr hoch |
| Descript | ~24 $/Monat | Gut | Ja | Cloud |
| Otter.ai | Ab 0 $ | Befriedigend | Ja | Cloud (USA) |
| Notta | Ab 0 $ | Gut | Ja | Cloud |
| Rev (KI) | 0,25 $/Min | Sehr gut | Ja | Cloud (USA) |
| Rev (Mensch) | 1,50 $/Min | Exzellent | Ja | Cloud (USA) |
Häufige Fragen (FAQ)
Wie genau ist die automatische Transkription auf Deutsch? Die besten KI-Systeme (Whisper Large v3, Google Cloud Speech-to-Text) erreichen bei klarem Hochdeutsch und guter Audioqualität Word Error Rates von 5–8 %. Das bedeutet: Bei 100 Wörtern sind ca. 5–8 fehlerhaft. Für Veröffentlichungen ist immer ein Korrekturlesen notwendig, vor allem bei Eigennamen, Ortsnamen und Fachtermini.
Was ist der Unterschied zwischen Closed Captions (CC) und Untertiteln? Closed Captions (CC) enthalten zusätzlich zu Gesprochenes auch Tonbeschreibungen (z. B. „[Musik]", „[Türklingeln]") und sind speziell für Hörbehinderte gedacht. Reguläre Untertitel (Subtitles) übersetzen oder transkribieren nur das Gesprochene. In der Praxis werden beide Begriffe oft synonym verwendet, vor allem im Online-Video-Bereich.
Verwandte Einträge
- Podcast-Wachstum, Transkripte als SEO-Instrument
- Podcast-Schnitt, Descript als Schnitt-Tool mit Transkriptions-Funktion
- ElevenLabs, KI-Stimmgenerierung und Speech-to-Text-Technologie
Weiterführend
- Radford, A., Kim, J. W., Xu, T., Brockman, G., McLeavey, C. & Sutskever, I. (2022): Robust Speech Recognition via Large-Scale Weak Supervision. OpenAI Technical Report. arxiv.org/abs/2212.04356.
- Koenecke, A. et al. (2020): Racial disparities in automated speech recognition. PNAS, 117(14), 7684–7689.
- Google (2024): Speech-to-Text AI: Accuracy and Language Support. cloud.google.com.
- W3C (2023): Web Content Accessibility Guidelines (WCAG) 2.2: Captions Guideline. w3.org.

