← Zurück zu Audio & Podcast
Transkription bezeichnet die Umwandlung von gesprochenem Audio oder Video in geschriebenen Text; Untertitel sind zeitlich synchronisierte Textelemente, die Audioinhalte für sehende Zuschauerinnen und Zuschauer ohne Ton zugänglich machen.

Rubrik: Audio & Podcast · Unterrubrik: Podcast · Niveau: Einsteiger Synonyme / Auch bekannt als: Speech-to-Text, Automatic Speech Recognition (ASR), Closed Captions, Captions


Was sind Transkription und Untertitel?

Transkription und Untertitel sind zwei Seiten derselben Medaille: Beide wandeln gesprochene Sprache in Text um, dienen jedoch unterschiedlichen Zwecken. Die Transkription erzeugt lesbaren Volltext, ideal für SEO, Barrierefreiheit und Content-Repurposing. Untertitel sind zeitgestempelte Textblöcke, die synchron zum Video oder Audio angezeigt werden.

Für Podcast-Produzentinnen und Content-Creator sind beide Formate heute unverzichtbar: Transkripte verbessern die Auffindbarkeit über Suchmaschinen; Untertitel erhöhen Reichweite in sozialen Netzwerken, wo die meisten Videos ohne Ton konsumiert werden.


Erklärung

KI-Transkriptions-Tools im Überblick

#### OpenAI Whisper (kostenlos, Open Source)

Whisper ist ein von OpenAI (2022) veröffentlichtes Open-Source-Spracherkennungsmodell und gilt als qualitativ bestes frei verfügbares ASR-System (Radford et al., 2022). Es unterstützt über 50 Sprachen, darunter Deutsch mit guter Erkennungsqualität.

Nutzung: Whisper läuft lokal auf dem eigenen Rechner (Python-Umgebung) oder über webbasierte Frontends (z. B. Whisper Transcription auf HuggingFace, oder lokal mit whisper audio.mp3 --language German).

Stärken:

  • Kostenlos, keine Datenschutzbedenken (lokale Verarbeitung möglich)
  • Sehr gute Genauigkeit, auch bei Fachjargon und verschiedenen Akzenten
  • Unterstützt Timestamping (für Untertitel-Export)
  • Export als VTT, SRT, TXT, JSON

Schwächen: Erfordert technisches Setup (Python/CLI) für die Offline-Nutzung; keine grafische Oberfläche im Original; Verarbeitung großer Dateien kann auf schwacher Hardware langsam sein.

Empfohlen für: Technisch versierte Nutzer, Datenschutz-sensible Produktionen, kostenlose Nutzung.

#### Descript

Descript (→ Descript MCP) integriert Transkription direkt in seinen Schnitt-Workflow. Jede hochgeladene Audiodatei wird automatisch transkribiert; der Schnitt erfolgt über die Textbearbeitung.

Stärken: Nahtlose Integration in Podcast-Workflow; automatische Identifikation verschiedener Sprecher (Diarization); Filler-Word-Removal auf Basis des Transkripts.

Schwächen: Kostenpflichtig (ca. 24 $/Monat für Pro); Deutsche Genauigkeit ca. 85–90 % (Stand 2024, verbessert aber noch unter Englisch).

#### Otter.ai

Cloud-basiertes Transkriptions-Tool mit Fokus auf Meetings und Gespräche. Echtzeit-Transkription möglich. Stärken bei englischsprachigen Inhalten; Deutsch seit 2023 unterstützt, aber noch begrenzte Qualität.

Kosten: Kostenlos (300 Minuten/Monat), Pro ab ca. 10 $/Monat.

#### Notta

Notta bietet KI-Transkription für über 100 Sprachen inklusive Deutsch. Besonderheit: Echtzeit-Übersetzung beim Transkribieren. Für internationale Podcast-Formate oder mehrsprachige Produktionen interessant.

Kosten: Kostenlos (3 Stunden/Monat), Pro ab ca. 14 $/Monat.

#### Rev

Rev bietet sowohl automatische (KI-basierte) als auch menschliche Transkription. Die menschliche Transkription (von spezialisierten Transcriptionists) erreicht nahezu 100 % Genauigkeit auch bei schwierigen Audios.

Kosten: KI-Transkription ca. 0,25 $/Minute; menschliche Transkription ca. 1,50 $/Minute.

Empfohlen für: Hochwertige Produktionen, rechtlich relevante Transkripte, schwierige Audioqualität.


Genauigkeit bei Deutsch

Die Erkennungsgenauigkeit von ASR-Systemen wird als Word Error Rate (WER) gemessen, niedriger WER = bessere Genauigkeit.

Richtwerte (2024) für Deutsch:

  • Whisper Large v3: WER ca. 5–8 % für klares Hochdeutsch (Radford et al., 2022; Koenecke et al., 2020)
  • Descript: WER ca. 8–12 % für Deutsch
  • Google Speech-to-Text (Cloud-API): WER ca. 6–10 %

Faktoren, die die Genauigkeit reduzieren: starke Dialekte, Fachjargon, Eigennamen, schlechte Audioqualität, Hintergrundgeräusche, mehrere Sprecher gleichzeitig.

Praxistipp: Nach der automatischen Transkription immer Korrekturlesen (Proof-Reading). Typische Fehler: Eigennamen falsch, homophone Wörter verwechselt (z. B. „weise" vs. „Weise"), fehlende Satzzeichen.


Transkript für SEO nutzen

Ein vollständiges Episoden-Transkript auf der eigenen Podcast-Website veröffentlicht gibt Suchmaschinen Zugriff auf den gesamten Inhalt einer Episode. Das führt zu:

  1. Long-Tail-Keyword-Rankings: Jede Episode rankt potenziell für hunderte spezifische Suchanfragen.
  2. Featured Snippets: Klar strukturierte Antworten im Transkript können als Google-Snippets erscheinen.
  3. Verweildauer und Backlinks: Qualitativ hochwertige Transkripte werden von anderen Websites verlinkt.

Best Practices für SEO-Transkripte:

  • Transkript als eigene Seite (nicht als Fließtext im Blog-Post), formatiert mit Absätzen und Zwischenüberschriften
  • H2-Überschriften für Haupt-Gesprächsblöcke einbauen
  • Kapitel-Timestamps im Transkript verlinken auf die entsprechende Timecode-Position

Automatische Untertitel: YouTube, Instagram, SRT-Dateien

YouTube: YouTube generiert automatisch Untertitel für hochgeladene Videos mit guter Audioqualität. Genauigkeit auf Deutsch ca. 85–90 %. Empfehlung: Automatisch generierte Untertitel manuell nachkorrigieren und als eigene Untertitelspur speichern.

Instagram Reels: Instagram bietet seit 2022 automatische Untertitelung für Reels an. Aktivierung: Bei Reel-Upload auf „Untertitel" tippen.

SRT-Dateien (SubRip Text): SRT ist das meistverbreitete Untertitel-Dateiformat. Eine SRT-Datei enthält nummerierte Blöcke mit Timecode und Text:

``` 1 00:00:03,500 --> 00:00:06,000 Willkommen zum Podcast der Lazi-Akademie.

2 00:00:06,200 --> 00:00:09,500 Heute sprechen wir über KI im Bildungsbereich. ```

SRT-Dateien können in YouTube, Vimeo, Instagram und die meisten Video-Plattformen hochgeladen werden.

SRT-Erstellung:

  • Whisper exportiert SRT direkt: whisper audio.mp3 --output_format srt
  • Descript exportiert SRT für Video-Projekte
  • Manuell: Adobe Premiere Pro, DaVinci Resolve, oder online: HappyScribe, Rev

Beispiele

  1. Podcast-Transkript mit Whisper (kostenlos): pip install openai-whisperwhisper episode47.mp3 --language German --output_format txt,srt → Transkript und SRT-Datei in unter 5 Minuten.
  2. Descript-Workflow: Episode hochladen → automatisches Transkript → Filler-Word-Removal → SRT für YouTube-Upload exportieren.
  3. YouTube-Untertitel korrigieren: Auto-Captions aktiviert → CC-Editor öffnen → systematisch Eigennamen und Fachbegriffe korrigieren → als eigene Spur speichern.
  4. SEO-Transkript-Seite: 60-Minuten-Interview-Transkript (ca. 8.000 Wörter) auf eigener URL mit strukturierten H2-Überschriften → innerhalb von 3 Monaten 500 monatliche organische Besuche.
  5. Instagram-Reel mit Untertiteln: Audiogramm aus Descript, SRT-Datei erzeugt, in CapCut hochgeladen → Schriftartendesign angepasst → Reichweite +40 % gegenüber Clips ohne Untertitel.

In der Praxis

Schnellster Workflow für Einsteiger:

  1. Riverside.fm oder Descript: Episode hochladen.
  2. Automatisches Transkript erzeugen lassen.
  3. Transkript durchlesen, Eigennamen korrigieren.
  4. Als TXT auf Website veröffentlichen (SEO).
  5. Als SRT für YouTube/Social-Media-Videos exportieren.

Zeitaufwand:

  • Automatische Transkription: 2–10 Minuten (je nach Dateilänge und Tool)
  • Korrekturlesen einer 45-Minuten-Episode: 20–45 Minuten
  • Formatierung für Website: 15–30 Minuten

Vergleich & Abgrenzung

ToolKostenDeutsch-QualitätSRT-ExportDatenschutz
Whisper (lokal)KostenlosSehr gutJaSehr hoch
Descript~24 $/MonatGutJaCloud
Otter.aiAb 0 $BefriedigendJaCloud (USA)
NottaAb 0 $GutJaCloud
Rev (KI)0,25 $/MinSehr gutJaCloud (USA)
Rev (Mensch)1,50 $/MinExzellentJaCloud (USA)

Häufige Fragen (FAQ)

Wie genau ist die automatische Transkription auf Deutsch? Die besten KI-Systeme (Whisper Large v3, Google Cloud Speech-to-Text) erreichen bei klarem Hochdeutsch und guter Audioqualität Word Error Rates von 5–8 %. Das bedeutet: Bei 100 Wörtern sind ca. 5–8 fehlerhaft. Für Veröffentlichungen ist immer ein Korrekturlesen notwendig, vor allem bei Eigennamen, Ortsnamen und Fachtermini.

Was ist der Unterschied zwischen Closed Captions (CC) und Untertiteln? Closed Captions (CC) enthalten zusätzlich zu Gesprochenes auch Tonbeschreibungen (z. B. „[Musik]", „[Türklingeln]") und sind speziell für Hörbehinderte gedacht. Reguläre Untertitel (Subtitles) übersetzen oder transkribieren nur das Gesprochene. In der Praxis werden beide Begriffe oft synonym verwendet, vor allem im Online-Video-Bereich.


Verwandte Einträge


Weiterführend

  • Radford, A., Kim, J. W., Xu, T., Brockman, G., McLeavey, C. & Sutskever, I. (2022): Robust Speech Recognition via Large-Scale Weak Supervision. OpenAI Technical Report. arxiv.org/abs/2212.04356.
  • Koenecke, A. et al. (2020): Racial disparities in automated speech recognition. PNAS, 117(14), 7684–7689.
  • Google (2024): Speech-to-Text AI: Accuracy and Language Support. cloud.google.com.
  • W3C (2023): Web Content Accessibility Guidelines (WCAG) 2.2: Captions Guideline. w3.org.
← Zurück zu Audio & Podcast
Infotag · nächster Termin

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.

Ein halber Nachmittag, der dir drei Jahre Klarheit bringen kann. Kostenlos, unverbindlich, ehrlich.

  • Rundgang durch Studios, Schnitträume und Tonstudio
  • Echte Absolventenfilme sehen
  • 1:1-Beratung zu Bewerbung & BAföG
  • Studierende direkt fragen
  • Kaffee, kein Sales-Pitch
  • Auch online möglich

Platz beim Infotag reservieren

Dauert 30 Sekunden. Bestätigung per E-Mail.
100 % kostenlos · keine Verpflichtung · jederzeit absagbar