Transkription & Untertitel

Transkription bezeichnet die Umwandlung von gesprochenem Audio oder Video in geschriebenen Text; Untertitel sind zeitlich synchronisierte Textelemente, die Audioinhalte für sehende Zuschauerinnen und Zuschauer ohne Ton zugänglich machen.

Rubrik: Audio & Podcast · Unterrubrik: Podcast · Niveau: Einsteiger Synonyme / Auch bekannt als: Speech-to-Text, Automatic Speech Recognition (ASR), Closed Captions, Captions

Was sind Transkription und Untertitel?

Transkription und Untertitel sind zwei Seiten derselben Medaille: Beide wandeln gesprochene Sprache in Text um, dienen jedoch unterschiedlichen Zwecken. Die Transkription erzeugt lesbaren Volltext – ideal für SEO, Barrierefreiheit und Content-Repurposing. Untertitel sind zeitgestempelte Textblöcke, die synchron zum Video oder Audio angezeigt werden.

Für Podcast-Produzentinnen und Content-Creator sind beide Formate heute unverzichtbar: Transkripte verbessern die Auffindbarkeit über Suchmaschinen; Untertitel erhöhen Reichweite in sozialen Netzwerken, wo die meisten Videos ohne Ton konsumiert werden.

Erklärung

KI-Transkriptions-Tools im Überblick

#### OpenAI Whisper (kostenlos, Open Source)

Whisper ist ein von OpenAI (2022) veröffentlichtes Open-Source-Spracherkennungsmodell und gilt als qualitativ bestes frei verfügbares ASR-System (Radford et al., 2022). Es unterstützt über 50 Sprachen, darunter Deutsch mit guter Erkennungsqualität.

Nutzung: Whisper läuft lokal auf dem eigenen Rechner (Python-Umgebung) oder über webbasierte Frontends (z. B. Whisper Transcription auf HuggingFace, oder lokal mit whisper audio.mp3 --language German).

Stärken:

Kostenlos, keine Datenschutzbedenken (lokale Verarbeitung möglich)
Sehr gute Genauigkeit, auch bei Fachjargon und verschiedenen Akzenten
Unterstützt Timestamping (für Untertitel-Export)
Export als VTT, SRT, TXT, JSON

Schwächen: Erfordert technisches Setup (Python/CLI) für die Offline-Nutzung; keine grafische Oberfläche im Original; Verarbeitung großer Dateien kann auf schwacher Hardware langsam sein.

Empfohlen für: Technisch versierte Nutzer, Datenschutz-sensible Produktionen, kostenlose Nutzung.

#### Descript

Descript (→ Descript MCP) integriert Transkription direkt in seinen Schnitt-Workflow. Jede hochgeladene Audiodatei wird automatisch transkribiert; der Schnitt erfolgt über die Textbearbeitung.

Stärken: Nahtlose Integration in Podcast-Workflow; automatische Identifikation verschiedener Sprecher (Diarization); Filler-Word-Removal auf Basis des Transkripts.

Schwächen: Kostenpflichtig (ca. 24 $/Monat für Pro); Deutsche Genauigkeit ca. 85–90 % (Stand 2024, verbessert aber noch unter Englisch).

#### Otter.ai

Cloud-basiertes Transkriptions-Tool mit Fokus auf Meetings und Gespräche. Echtzeit-Transkription möglich. Stärken bei englischsprachigen Inhalten; Deutsch seit 2023 unterstützt, aber noch begrenzte Qualität.

Kosten: Kostenlos (300 Minuten/Monat), Pro ab ca. 10 $/Monat.

#### Notta

Notta bietet KI-Transkription für über 100 Sprachen inklusive Deutsch. Besonderheit: Echtzeit-Übersetzung beim Transkribieren. Für internationale Podcast-Formate oder mehrsprachige Produktionen interessant.

Kosten: Kostenlos (3 Stunden/Monat), Pro ab ca. 14 $/Monat.

#### Rev

Rev bietet sowohl automatische (KI-basierte) als auch menschliche Transkription. Die menschliche Transkription (von spezialisierten Transcriptionists) erreicht nahezu 100 % Genauigkeit auch bei schwierigen Audios.

Kosten: KI-Transkription ca. 0,25 $/Minute; menschliche Transkription ca. 1,50 $/Minute.

Empfohlen für: Hochwertige Produktionen, rechtlich relevante Transkripte, schwierige Audioqualität.

Genauigkeit bei Deutsch

Die Erkennungsgenauigkeit von ASR-Systemen wird als Word Error Rate (WER) gemessen – niedriger WER = bessere Genauigkeit.

Richtwerte (2024) für Deutsch:

Whisper Large v3: WER ca. 5–8 % für klares Hochdeutsch (Radford et al., 2022; Koenecke et al., 2020)
Descript: WER ca. 8–12 % für Deutsch
Google Speech-to-Text (Cloud-API): WER ca. 6–10 %

Faktoren, die die Genauigkeit reduzieren: starke Dialekte, Fachjargon, Eigennamen, schlechte Audioqualität, Hintergrundgeräusche, mehrere Sprecher gleichzeitig.

Praxistipp: Nach der automatischen Transkription immer Korrekturlesen (Proof-Reading). Typische Fehler: Eigennamen falsch, homophone Wörter verwechselt (z. B. „weise" vs. „Weise"), fehlende Satzzeichen.

Transkript für SEO nutzen

Ein vollständiges Episoden-Transkript auf der eigenen Podcast-Website veröffentlicht gibt Suchmaschinen Zugriff auf den gesamten Inhalt einer Episode. Das führt zu:

Long-Tail-Keyword-Rankings: Jede Episode rankt potenziell für hunderte spezifische Suchanfragen.
Featured Snippets: Klar strukturierte Antworten im Transkript können als Google-Snippets erscheinen.
Verweildauer und Backlinks: Qualitativ hochwertige Transkripte werden von anderen Websites verlinkt.

Best Practices für SEO-Transkripte:

Transkript als eigene Seite (nicht als Fließtext im Blog-Post), formatiert mit Absätzen und Zwischenüberschriften
H2-Überschriften für Haupt-Gesprächsblöcke einbauen
Kapitel-Timestamps im Transkript verlinken auf die entsprechende Timecode-Position

Automatische Untertitel: YouTube, Instagram, SRT-Dateien

YouTube: YouTube generiert automatisch Untertitel für hochgeladene Videos mit guter Audioqualität. Genauigkeit auf Deutsch ca. 85–90 %. Empfehlung: Automatisch generierte Untertitel manuell nachkorrigieren und als eigene Untertitelspur speichern.

Instagram Reels: Instagram bietet seit 2022 automatische Untertitelung für Reels an. Aktivierung: Bei Reel-Upload auf „Untertitel" tippen.

SRT-Dateien (SubRip Text): SRT ist das meistverbreitete Untertitel-Dateiformat. Eine SRT-Datei enthält nummerierte Blöcke mit Timecode und Text:

``` 1 00:00:03,500 --> 00:00:06,000 Willkommen zum Podcast der Lazi-Akademie.

2 00:00:06,200 --> 00:00:09,500 Heute sprechen wir über KI im Bildungsbereich. ```

SRT-Dateien können in YouTube, Vimeo, Instagram und die meisten Video-Plattformen hochgeladen werden.

SRT-Erstellung:

Whisper exportiert SRT direkt: whisper audio.mp3 --output_format srt
Descript exportiert SRT für Video-Projekte
Manuell: Adobe Premiere Pro, DaVinci Resolve, oder online: HappyScribe, Rev

Beispiele

Podcast-Transkript mit Whisper (kostenlos): pip install openai-whisper → whisper episode47.mp3 --language German --output_format txt,srt → Transkript und SRT-Datei in unter 5 Minuten.
Descript-Workflow: Episode hochladen → automatisches Transkript → Filler-Word-Removal → SRT für YouTube-Upload exportieren.
YouTube-Untertitel korrigieren: Auto-Captions aktiviert → CC-Editor öffnen → systematisch Eigennamen und Fachbegriffe korrigieren → als eigene Spur speichern.
SEO-Transkript-Seite: 60-Minuten-Interview-Transkript (ca. 8.000 Wörter) auf eigener URL mit strukturierten H2-Überschriften → innerhalb von 3 Monaten 500 monatliche organische Besuche.
Instagram-Reel mit Untertiteln: Audiogramm aus Descript, SRT-Datei erzeugt, in CapCut hochgeladen → Schriftartendesign angepasst → Reichweite +40 % gegenüber Clips ohne Untertitel.

In der Praxis

Schnellster Workflow für Einsteiger:

Riverside.fm oder Descript: Episode hochladen.
Automatisches Transkript erzeugen lassen.
Transkript durchlesen, Eigennamen korrigieren.
Als TXT auf Website veröffentlichen (SEO).
Als SRT für YouTube/Social-Media-Videos exportieren.

Zeitaufwand:

Automatische Transkription: 2–10 Minuten (je nach Dateilänge und Tool)
Korrekturlesen einer 45-Minuten-Episode: 20–45 Minuten
Formatierung für Website: 15–30 Minuten

Vergleich & Abgrenzung

Tool	Kosten	Deutsch-Qualität	SRT-Export	Datenschutz
Whisper (lokal)	Kostenlos	Sehr gut	Ja	Sehr hoch
Descript	~24 $/Monat	Gut	Ja	Cloud
Otter.ai	Ab 0 $	Befriedigend	Ja	Cloud (USA)
Notta	Ab 0 $	Gut	Ja	Cloud
Rev (KI)	0,25 $/Min	Sehr gut	Ja	Cloud (USA)
Rev (Mensch)	1,50 $/Min	Exzellent	Ja	Cloud (USA)

Häufige Fragen (FAQ)

Wie genau ist die automatische Transkription auf Deutsch? Die besten KI-Systeme (Whisper Large v3, Google Cloud Speech-to-Text) erreichen bei klarem Hochdeutsch und guter Audioqualität Word Error Rates von 5–8 %. Das bedeutet: Bei 100 Wörtern sind ca. 5–8 fehlerhaft. Für Veröffentlichungen ist immer ein Korrekturlesen notwendig – vor allem bei Eigennamen, Ortsnamen und Fachtermini.

Was ist der Unterschied zwischen Closed Captions (CC) und Untertiteln? Closed Captions (CC) enthalten zusätzlich zu Gesprochenes auch Tonbeschreibungen (z. B. „[Musik]", „[Türklingeln]") und sind speziell für Hörbehinderte gedacht. Reguläre Untertitel (Subtitles) übersetzen oder transkribieren nur das Gesprochene. In der Praxis werden beide Begriffe oft synonym verwendet, vor allem im Online-Video-Bereich.

Weiterführend

Radford, A., Kim, J. W., Xu, T., Brockman, G., McLeavey, C. & Sutskever, I. (2022): Robust Speech Recognition via Large-Scale Weak Supervision. OpenAI Technical Report. arxiv.org/abs/2212.04356.
Koenecke, A. et al. (2020): Racial disparities in automated speech recognition. PNAS, 117(14), 7684–7689.
Google (2024): Speech-to-Text AI: Accuracy and Language Support. cloud.google.com.
W3C (2023): Web Content Accessibility Guidelines (WCAG) 2.2: Captions Guideline. w3.org.

Was sind Transkription und Untertitel?

Erklärung

KI-Transkriptions-Tools im Überblick

Genauigkeit bei Deutsch

Transkript für SEO nutzen

Automatische Untertitel: YouTube, Instagram, SRT-Dateien

Beispiele

In der Praxis

Vergleich & Abgrenzung

Häufige Fragen (FAQ)

Verwandte Einträge

Weiterführend

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.

Platz beim Infotag reservieren

Transkription & Untertitel

Was sind Transkription und Untertitel?

Erklärung

KI-Transkriptions-Tools im Überblick

Genauigkeit bei Deutsch

Transkript für SEO nutzen

Automatische Untertitel: YouTube, Instagram, SRT-Dateien

Beispiele

In der Praxis

Vergleich & Abgrenzung

Häufige Fragen (FAQ)

Verwandte Einträge

Weiterführend

Sei am Mittwoch dabei.Bring Eltern oder Freunde mit.

Platz beim Infotag reservieren

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.