Transkription bezeichnet die Umwandlung von gesprochenem Audio oder Video in geschriebenen Text; Untertitel sind zeitlich synchronisierte Textelemente, die Audioinhalte für sehende Zuschauerinnen und Zuschauer ohne Ton zugänglich machen.

Rubrik: Audio & Podcast · Unterrubrik: Podcast · Niveau: Einsteiger Synonyme / Auch bekannt als: Speech-to-Text, Automatic Speech Recognition (ASR), Closed Captions, Captions


Was sind Transkription und Untertitel?

Transkription und Untertitel sind zwei Seiten derselben Medaille: Beide wandeln gesprochene Sprache in Text um, dienen jedoch unterschiedlichen Zwecken. Die Transkription erzeugt lesbaren Volltext – ideal für SEO, Barrierefreiheit und Content-Repurposing. Untertitel sind zeitgestempelte Textblöcke, die synchron zum Video oder Audio angezeigt werden.

Für Podcast-Produzentinnen und Content-Creator sind beide Formate heute unverzichtbar: Transkripte verbessern die Auffindbarkeit über Suchmaschinen; Untertitel erhöhen Reichweite in sozialen Netzwerken, wo die meisten Videos ohne Ton konsumiert werden.


Erklärung

KI-Transkriptions-Tools im Überblick

#### OpenAI Whisper (kostenlos, Open Source)

Whisper ist ein von OpenAI (2022) veröffentlichtes Open-Source-Spracherkennungsmodell und gilt als qualitativ bestes frei verfügbares ASR-System (Radford et al., 2022). Es unterstützt über 50 Sprachen, darunter Deutsch mit guter Erkennungsqualität.

Nutzung: Whisper läuft lokal auf dem eigenen Rechner (Python-Umgebung) oder über webbasierte Frontends (z. B. Whisper Transcription auf HuggingFace, oder lokal mit whisper audio.mp3 --language German).

Stärken:

  • Kostenlos, keine Datenschutzbedenken (lokale Verarbeitung möglich)
  • Sehr gute Genauigkeit, auch bei Fachjargon und verschiedenen Akzenten
  • Unterstützt Timestamping (für Untertitel-Export)
  • Export als VTT, SRT, TXT, JSON

Schwächen: Erfordert technisches Setup (Python/CLI) für die Offline-Nutzung; keine grafische Oberfläche im Original; Verarbeitung großer Dateien kann auf schwacher Hardware langsam sein.

Empfohlen für: Technisch versierte Nutzer, Datenschutz-sensible Produktionen, kostenlose Nutzung.

#### Descript

Descript (→ Descript MCP) integriert Transkription direkt in seinen Schnitt-Workflow. Jede hochgeladene Audiodatei wird automatisch transkribiert; der Schnitt erfolgt über die Textbearbeitung.

Stärken: Nahtlose Integration in Podcast-Workflow; automatische Identifikation verschiedener Sprecher (Diarization); Filler-Word-Removal auf Basis des Transkripts.

Schwächen: Kostenpflichtig (ca. 24 $/Monat für Pro); Deutsche Genauigkeit ca. 85–90 % (Stand 2024, verbessert aber noch unter Englisch).

#### Otter.ai

Cloud-basiertes Transkriptions-Tool mit Fokus auf Meetings und Gespräche. Echtzeit-Transkription möglich. Stärken bei englischsprachigen Inhalten; Deutsch seit 2023 unterstützt, aber noch begrenzte Qualität.

Kosten: Kostenlos (300 Minuten/Monat), Pro ab ca. 10 $/Monat.

#### Notta

Notta bietet KI-Transkription für über 100 Sprachen inklusive Deutsch. Besonderheit: Echtzeit-Übersetzung beim Transkribieren. Für internationale Podcast-Formate oder mehrsprachige Produktionen interessant.

Kosten: Kostenlos (3 Stunden/Monat), Pro ab ca. 14 $/Monat.

#### Rev

Rev bietet sowohl automatische (KI-basierte) als auch menschliche Transkription. Die menschliche Transkription (von spezialisierten Transcriptionists) erreicht nahezu 100 % Genauigkeit auch bei schwierigen Audios.

Kosten: KI-Transkription ca. 0,25 $/Minute; menschliche Transkription ca. 1,50 $/Minute.

Empfohlen für: Hochwertige Produktionen, rechtlich relevante Transkripte, schwierige Audioqualität.


Genauigkeit bei Deutsch

Die Erkennungsgenauigkeit von ASR-Systemen wird als Word Error Rate (WER) gemessen – niedriger WER = bessere Genauigkeit.

Richtwerte (2024) für Deutsch:

  • Whisper Large v3: WER ca. 5–8 % für klares Hochdeutsch (Radford et al., 2022; Koenecke et al., 2020)
  • Descript: WER ca. 8–12 % für Deutsch
  • Google Speech-to-Text (Cloud-API): WER ca. 6–10 %

Faktoren, die die Genauigkeit reduzieren: starke Dialekte, Fachjargon, Eigennamen, schlechte Audioqualität, Hintergrundgeräusche, mehrere Sprecher gleichzeitig.

Praxistipp: Nach der automatischen Transkription immer Korrekturlesen (Proof-Reading). Typische Fehler: Eigennamen falsch, homophone Wörter verwechselt (z. B. „weise" vs. „Weise"), fehlende Satzzeichen.


Transkript für SEO nutzen

Ein vollständiges Episoden-Transkript auf der eigenen Podcast-Website veröffentlicht gibt Suchmaschinen Zugriff auf den gesamten Inhalt einer Episode. Das führt zu:

  1. Long-Tail-Keyword-Rankings: Jede Episode rankt potenziell für hunderte spezifische Suchanfragen.
  2. Featured Snippets: Klar strukturierte Antworten im Transkript können als Google-Snippets erscheinen.
  3. Verweildauer und Backlinks: Qualitativ hochwertige Transkripte werden von anderen Websites verlinkt.

Best Practices für SEO-Transkripte:

  • Transkript als eigene Seite (nicht als Fließtext im Blog-Post), formatiert mit Absätzen und Zwischenüberschriften
  • H2-Überschriften für Haupt-Gesprächsblöcke einbauen
  • Kapitel-Timestamps im Transkript verlinken auf die entsprechende Timecode-Position

Automatische Untertitel: YouTube, Instagram, SRT-Dateien

YouTube: YouTube generiert automatisch Untertitel für hochgeladene Videos mit guter Audioqualität. Genauigkeit auf Deutsch ca. 85–90 %. Empfehlung: Automatisch generierte Untertitel manuell nachkorrigieren und als eigene Untertitelspur speichern.

Instagram Reels: Instagram bietet seit 2022 automatische Untertitelung für Reels an. Aktivierung: Bei Reel-Upload auf „Untertitel" tippen.

SRT-Dateien (SubRip Text): SRT ist das meistverbreitete Untertitel-Dateiformat. Eine SRT-Datei enthält nummerierte Blöcke mit Timecode und Text:

``` 1 00:00:03,500 --> 00:00:06,000 Willkommen zum Podcast der Lazi-Akademie.

2 00:00:06,200 --> 00:00:09,500 Heute sprechen wir über KI im Bildungsbereich. ```

SRT-Dateien können in YouTube, Vimeo, Instagram und die meisten Video-Plattformen hochgeladen werden.

SRT-Erstellung:

  • Whisper exportiert SRT direkt: whisper audio.mp3 --output_format srt
  • Descript exportiert SRT für Video-Projekte
  • Manuell: Adobe Premiere Pro, DaVinci Resolve, oder online: HappyScribe, Rev

Beispiele

  1. Podcast-Transkript mit Whisper (kostenlos): pip install openai-whisperwhisper episode47.mp3 --language German --output_format txt,srt → Transkript und SRT-Datei in unter 5 Minuten.
  2. Descript-Workflow: Episode hochladen → automatisches Transkript → Filler-Word-Removal → SRT für YouTube-Upload exportieren.
  3. YouTube-Untertitel korrigieren: Auto-Captions aktiviert → CC-Editor öffnen → systematisch Eigennamen und Fachbegriffe korrigieren → als eigene Spur speichern.
  4. SEO-Transkript-Seite: 60-Minuten-Interview-Transkript (ca. 8.000 Wörter) auf eigener URL mit strukturierten H2-Überschriften → innerhalb von 3 Monaten 500 monatliche organische Besuche.
  5. Instagram-Reel mit Untertiteln: Audiogramm aus Descript, SRT-Datei erzeugt, in CapCut hochgeladen → Schriftartendesign angepasst → Reichweite +40 % gegenüber Clips ohne Untertitel.

In der Praxis

Schnellster Workflow für Einsteiger:

  1. Riverside.fm oder Descript: Episode hochladen.
  2. Automatisches Transkript erzeugen lassen.
  3. Transkript durchlesen, Eigennamen korrigieren.
  4. Als TXT auf Website veröffentlichen (SEO).
  5. Als SRT für YouTube/Social-Media-Videos exportieren.

Zeitaufwand:

  • Automatische Transkription: 2–10 Minuten (je nach Dateilänge und Tool)
  • Korrekturlesen einer 45-Minuten-Episode: 20–45 Minuten
  • Formatierung für Website: 15–30 Minuten

Vergleich & Abgrenzung

ToolKostenDeutsch-QualitätSRT-ExportDatenschutz
Whisper (lokal)KostenlosSehr gutJaSehr hoch
Descript~24 $/MonatGutJaCloud
Otter.aiAb 0 $BefriedigendJaCloud (USA)
NottaAb 0 $GutJaCloud
Rev (KI)0,25 $/MinSehr gutJaCloud (USA)
Rev (Mensch)1,50 $/MinExzellentJaCloud (USA)

Häufige Fragen (FAQ)

Wie genau ist die automatische Transkription auf Deutsch? Die besten KI-Systeme (Whisper Large v3, Google Cloud Speech-to-Text) erreichen bei klarem Hochdeutsch und guter Audioqualität Word Error Rates von 5–8 %. Das bedeutet: Bei 100 Wörtern sind ca. 5–8 fehlerhaft. Für Veröffentlichungen ist immer ein Korrekturlesen notwendig – vor allem bei Eigennamen, Ortsnamen und Fachtermini.

Was ist der Unterschied zwischen Closed Captions (CC) und Untertiteln? Closed Captions (CC) enthalten zusätzlich zu Gesprochenes auch Tonbeschreibungen (z. B. „[Musik]", „[Türklingeln]") und sind speziell für Hörbehinderte gedacht. Reguläre Untertitel (Subtitles) übersetzen oder transkribieren nur das Gesprochene. In der Praxis werden beide Begriffe oft synonym verwendet, vor allem im Online-Video-Bereich.


Verwandte Einträge


Weiterführend

  • Radford, A., Kim, J. W., Xu, T., Brockman, G., McLeavey, C. & Sutskever, I. (2022): Robust Speech Recognition via Large-Scale Weak Supervision. OpenAI Technical Report. arxiv.org/abs/2212.04356.
  • Koenecke, A. et al. (2020): Racial disparities in automated speech recognition. PNAS, 117(14), 7684–7689.
  • Google (2024): Speech-to-Text AI: Accuracy and Language Support. cloud.google.com.
  • W3C (2023): Web Content Accessibility Guidelines (WCAG) 2.2: Captions Guideline. w3.org.
Verwandte Einträge
← Zurück zu Audio & Podcast
Infotag · 13. Mai · 15:00 Uhr · Vor Ort

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.

Ein halber Nachmittag, der dir drei Jahre Klarheit bringen kann. Kostenlos, unverbindlich, ehrlich.

  • Rundgang durch Studios, Schnitträume und Tonstudio
  • Echte Absolventenfilme sehen
  • 1:1-Beratung zu Bewerbung & BAföG
  • Studierende direkt fragen
  • Kaffee, Snacks, kein Sales-Pitch
  • Auch online möglich

Platz beim Infotag reservieren

Dauert 30 Sekunden. Bestätigung per E-Mail.
100 % kostenlos · keine Verpflichtung · jederzeit absagbar