Transkription bezeichnet die Umwandlung von gesprochenem Audio oder Video in geschriebenen Text; Untertitel sind zeitlich synchronisierte Textelemente, die Audioinhalte für sehende Zuschauerinnen und Zuschauer ohne Ton zugänglich machen.
Rubrik: Audio & Podcast · Unterrubrik: Podcast · Niveau: Einsteiger Synonyme / Auch bekannt als: Speech-to-Text, Automatic Speech Recognition (ASR), Closed Captions, Captions
Was sind Transkription und Untertitel?
Transkription und Untertitel sind zwei Seiten derselben Medaille: Beide wandeln gesprochene Sprache in Text um, dienen jedoch unterschiedlichen Zwecken. Die Transkription erzeugt lesbaren Volltext – ideal für SEO, Barrierefreiheit und Content-Repurposing. Untertitel sind zeitgestempelte Textblöcke, die synchron zum Video oder Audio angezeigt werden.
Für Podcast-Produzentinnen und Content-Creator sind beide Formate heute unverzichtbar: Transkripte verbessern die Auffindbarkeit über Suchmaschinen; Untertitel erhöhen Reichweite in sozialen Netzwerken, wo die meisten Videos ohne Ton konsumiert werden.
Erklärung
KI-Transkriptions-Tools im Überblick
#### OpenAI Whisper (kostenlos, Open Source)
Whisper ist ein von OpenAI (2022) veröffentlichtes Open-Source-Spracherkennungsmodell und gilt als qualitativ bestes frei verfügbares ASR-System (Radford et al., 2022). Es unterstützt über 50 Sprachen, darunter Deutsch mit guter Erkennungsqualität.
Nutzung: Whisper läuft lokal auf dem eigenen Rechner (Python-Umgebung) oder über webbasierte Frontends (z. B. Whisper Transcription auf HuggingFace, oder lokal mit whisper audio.mp3 --language German).
Stärken:
- Kostenlos, keine Datenschutzbedenken (lokale Verarbeitung möglich)
- Sehr gute Genauigkeit, auch bei Fachjargon und verschiedenen Akzenten
- Unterstützt Timestamping (für Untertitel-Export)
- Export als VTT, SRT, TXT, JSON
Schwächen: Erfordert technisches Setup (Python/CLI) für die Offline-Nutzung; keine grafische Oberfläche im Original; Verarbeitung großer Dateien kann auf schwacher Hardware langsam sein.
Empfohlen für: Technisch versierte Nutzer, Datenschutz-sensible Produktionen, kostenlose Nutzung.
#### Descript
Descript (→ Descript MCP) integriert Transkription direkt in seinen Schnitt-Workflow. Jede hochgeladene Audiodatei wird automatisch transkribiert; der Schnitt erfolgt über die Textbearbeitung.
Stärken: Nahtlose Integration in Podcast-Workflow; automatische Identifikation verschiedener Sprecher (Diarization); Filler-Word-Removal auf Basis des Transkripts.
Schwächen: Kostenpflichtig (ca. 24 $/Monat für Pro); Deutsche Genauigkeit ca. 85–90 % (Stand 2024, verbessert aber noch unter Englisch).
#### Otter.ai
Cloud-basiertes Transkriptions-Tool mit Fokus auf Meetings und Gespräche. Echtzeit-Transkription möglich. Stärken bei englischsprachigen Inhalten; Deutsch seit 2023 unterstützt, aber noch begrenzte Qualität.
Kosten: Kostenlos (300 Minuten/Monat), Pro ab ca. 10 $/Monat.
#### Notta
Notta bietet KI-Transkription für über 100 Sprachen inklusive Deutsch. Besonderheit: Echtzeit-Übersetzung beim Transkribieren. Für internationale Podcast-Formate oder mehrsprachige Produktionen interessant.
Kosten: Kostenlos (3 Stunden/Monat), Pro ab ca. 14 $/Monat.
#### Rev
Rev bietet sowohl automatische (KI-basierte) als auch menschliche Transkription. Die menschliche Transkription (von spezialisierten Transcriptionists) erreicht nahezu 100 % Genauigkeit auch bei schwierigen Audios.
Kosten: KI-Transkription ca. 0,25 $/Minute; menschliche Transkription ca. 1,50 $/Minute.
Empfohlen für: Hochwertige Produktionen, rechtlich relevante Transkripte, schwierige Audioqualität.
Genauigkeit bei Deutsch
Die Erkennungsgenauigkeit von ASR-Systemen wird als Word Error Rate (WER) gemessen – niedriger WER = bessere Genauigkeit.
Richtwerte (2024) für Deutsch:
- Whisper Large v3: WER ca. 5–8 % für klares Hochdeutsch (Radford et al., 2022; Koenecke et al., 2020)
- Descript: WER ca. 8–12 % für Deutsch
- Google Speech-to-Text (Cloud-API): WER ca. 6–10 %
Faktoren, die die Genauigkeit reduzieren: starke Dialekte, Fachjargon, Eigennamen, schlechte Audioqualität, Hintergrundgeräusche, mehrere Sprecher gleichzeitig.
Praxistipp: Nach der automatischen Transkription immer Korrekturlesen (Proof-Reading). Typische Fehler: Eigennamen falsch, homophone Wörter verwechselt (z. B. „weise" vs. „Weise"), fehlende Satzzeichen.
Transkript für SEO nutzen
Ein vollständiges Episoden-Transkript auf der eigenen Podcast-Website veröffentlicht gibt Suchmaschinen Zugriff auf den gesamten Inhalt einer Episode. Das führt zu:
- Long-Tail-Keyword-Rankings: Jede Episode rankt potenziell für hunderte spezifische Suchanfragen.
- Featured Snippets: Klar strukturierte Antworten im Transkript können als Google-Snippets erscheinen.
- Verweildauer und Backlinks: Qualitativ hochwertige Transkripte werden von anderen Websites verlinkt.
Best Practices für SEO-Transkripte:
- Transkript als eigene Seite (nicht als Fließtext im Blog-Post), formatiert mit Absätzen und Zwischenüberschriften
- H2-Überschriften für Haupt-Gesprächsblöcke einbauen
- Kapitel-Timestamps im Transkript verlinken auf die entsprechende Timecode-Position
Automatische Untertitel: YouTube, Instagram, SRT-Dateien
YouTube: YouTube generiert automatisch Untertitel für hochgeladene Videos mit guter Audioqualität. Genauigkeit auf Deutsch ca. 85–90 %. Empfehlung: Automatisch generierte Untertitel manuell nachkorrigieren und als eigene Untertitelspur speichern.
Instagram Reels: Instagram bietet seit 2022 automatische Untertitelung für Reels an. Aktivierung: Bei Reel-Upload auf „Untertitel" tippen.
SRT-Dateien (SubRip Text): SRT ist das meistverbreitete Untertitel-Dateiformat. Eine SRT-Datei enthält nummerierte Blöcke mit Timecode und Text:
``` 1 00:00:03,500 --> 00:00:06,000 Willkommen zum Podcast der Lazi-Akademie.
2 00:00:06,200 --> 00:00:09,500 Heute sprechen wir über KI im Bildungsbereich. ```
SRT-Dateien können in YouTube, Vimeo, Instagram und die meisten Video-Plattformen hochgeladen werden.
SRT-Erstellung:
- Whisper exportiert SRT direkt:
whisper audio.mp3 --output_format srt - Descript exportiert SRT für Video-Projekte
- Manuell: Adobe Premiere Pro, DaVinci Resolve, oder online: HappyScribe, Rev
Beispiele
- Podcast-Transkript mit Whisper (kostenlos):
pip install openai-whisper→whisper episode47.mp3 --language German --output_format txt,srt→ Transkript und SRT-Datei in unter 5 Minuten. - Descript-Workflow: Episode hochladen → automatisches Transkript → Filler-Word-Removal → SRT für YouTube-Upload exportieren.
- YouTube-Untertitel korrigieren: Auto-Captions aktiviert → CC-Editor öffnen → systematisch Eigennamen und Fachbegriffe korrigieren → als eigene Spur speichern.
- SEO-Transkript-Seite: 60-Minuten-Interview-Transkript (ca. 8.000 Wörter) auf eigener URL mit strukturierten H2-Überschriften → innerhalb von 3 Monaten 500 monatliche organische Besuche.
- Instagram-Reel mit Untertiteln: Audiogramm aus Descript, SRT-Datei erzeugt, in CapCut hochgeladen → Schriftartendesign angepasst → Reichweite +40 % gegenüber Clips ohne Untertitel.
In der Praxis
Schnellster Workflow für Einsteiger:
- Riverside.fm oder Descript: Episode hochladen.
- Automatisches Transkript erzeugen lassen.
- Transkript durchlesen, Eigennamen korrigieren.
- Als TXT auf Website veröffentlichen (SEO).
- Als SRT für YouTube/Social-Media-Videos exportieren.
Zeitaufwand:
- Automatische Transkription: 2–10 Minuten (je nach Dateilänge und Tool)
- Korrekturlesen einer 45-Minuten-Episode: 20–45 Minuten
- Formatierung für Website: 15–30 Minuten
Vergleich & Abgrenzung
| Tool | Kosten | Deutsch-Qualität | SRT-Export | Datenschutz |
|---|---|---|---|---|
| Whisper (lokal) | Kostenlos | Sehr gut | Ja | Sehr hoch |
| Descript | ~24 $/Monat | Gut | Ja | Cloud |
| Otter.ai | Ab 0 $ | Befriedigend | Ja | Cloud (USA) |
| Notta | Ab 0 $ | Gut | Ja | Cloud |
| Rev (KI) | 0,25 $/Min | Sehr gut | Ja | Cloud (USA) |
| Rev (Mensch) | 1,50 $/Min | Exzellent | Ja | Cloud (USA) |
Häufige Fragen (FAQ)
Wie genau ist die automatische Transkription auf Deutsch? Die besten KI-Systeme (Whisper Large v3, Google Cloud Speech-to-Text) erreichen bei klarem Hochdeutsch und guter Audioqualität Word Error Rates von 5–8 %. Das bedeutet: Bei 100 Wörtern sind ca. 5–8 fehlerhaft. Für Veröffentlichungen ist immer ein Korrekturlesen notwendig – vor allem bei Eigennamen, Ortsnamen und Fachtermini.
Was ist der Unterschied zwischen Closed Captions (CC) und Untertiteln? Closed Captions (CC) enthalten zusätzlich zu Gesprochenes auch Tonbeschreibungen (z. B. „[Musik]", „[Türklingeln]") und sind speziell für Hörbehinderte gedacht. Reguläre Untertitel (Subtitles) übersetzen oder transkribieren nur das Gesprochene. In der Praxis werden beide Begriffe oft synonym verwendet, vor allem im Online-Video-Bereich.
Verwandte Einträge
- Podcast-Wachstum – Transkripte als SEO-Instrument
- Podcast-Schnitt – Descript als Schnitt-Tool mit Transkriptions-Funktion
- ElevenLabs – KI-Stimmgenerierung und Speech-to-Text-Technologie
Weiterführend
- Radford, A., Kim, J. W., Xu, T., Brockman, G., McLeavey, C. & Sutskever, I. (2022): Robust Speech Recognition via Large-Scale Weak Supervision. OpenAI Technical Report. arxiv.org/abs/2212.04356.
- Koenecke, A. et al. (2020): Racial disparities in automated speech recognition. PNAS, 117(14), 7684–7689.
- Google (2024): Speech-to-Text AI: Accuracy and Language Support. cloud.google.com.
- W3C (2023): Web Content Accessibility Guidelines (WCAG) 2.2: Captions Guideline. w3.org.
