← Zurück zu Audio & Podcast
Podcast-Transkription bezeichnet die automatische oder manuelle Umwandlung von Podcast-Audio in geschriebenen Text, die als Basis für Shownotes, SEO-Inhalte, Barrierefreiheit und Content-Repurposing genutzt wird.

Was ist Podcast-Transkription?

Ein ausgesprochenes Wort ist flüchtig. Ein transkribiertes Wort ist suchbar, teilbar und weiterverarbeitbar. Podcast-Transkriptionen sind aus drei Gründen wertvoll: Sie machen Inhalte für hörgeschädigte Personen zugänglich (Barrierefreiheit), ermöglichen Suchmaschinen die Indexierung von Podcast-Inhalten (SEO) und dienen als Rohtext für Shownotes, Social-Media-Posts, Blogartikel und Newsletter.

Erklärung

Warum Transkription wichtig ist

Barrierefreiheit: Schätzungsweise 466 Millionen Menschen weltweit leben mit einer relevanten Hörbeeinträchtigung (WHO, 2023). Transkriptionen machen Podcast-Inhalte für diese Gruppe zugänglich. In Deutschland verankert das Barrierefreiheitsstärkungsgesetz (BFSG, seit 2025) Zugänglichkeitsanforderungen für digitale Angebote.

SEO: Suchmaschinen können Audio nicht direkt indexieren. Transkriptionen bringen den vollständigen Wortinhalt einer Episode in textbasierter Form in die Suchmaschinen-Indexierung.

Content-Repurposing: Ein 60-Minuten-Interview-Transkript enthält ca. 8.000–10.000 Wörter verwertbaren Text. Daraus lassen sich erstellen:

  • 5–10 Shownotes-Abschnitte
  • 15–20 Social-Media-Posts
  • 2–3 Blogartikel
  • E-Mail-Newsletter-Inhalte

Manuelle vs. automatische Transkription

Manuell:

  • Höchste Genauigkeit (nahezu 100 %)
  • Sehr zeitaufwendig: 1 Stunde Audio = 4–6 Stunden manuelle Transkription
  • Kosten für externe Transkribierende: 1–3 € pro Minute Audio
  • Sinnvoll für: Archivmaterial, wissenschaftliche Projekte, gerichtsverwertbare Dokumente

Automatisch (KI):

  • Genauigkeit je nach Tool: 85–98 % (sprecherabhängig, Aufnahmequalität)
  • Sehr schnell: 1 Stunde Audio = 2–5 Minuten KI-Transkription
  • Günstig bis kostenlos
  • Nachbearbeitung nötig bei Fachbegriffen, starken Akzenten, schlechter Audioqualität

KI-Transkriptions-Tools im Vergleich

OpenAI Whisper (kostenlos/Open Source)

  • Freies Spracherkennungsmodell von OpenAI
  • Hohe Genauigkeit, auch bei Akzenten und Fachvokabular
  • Lokal ausführbar (keine Datenweitergabe) oder über API
  • Für Deutsch: sehr gute Performance
  • Nachteil: Technische Installation nötig (Python), kein einfaches GUI für Einsteiger
  • Kostenlos für lokale Nutzung; API ab 0,006 $/Minute

Descript

  • Transkription integriert in Podcast-Editing-Workflow
  • Schnitt per Text: Wort löschen = Audio löscht sich
  • Gute Genauigkeit für Englisch; Deutsch seit 2023 unterstützt
  • Ab ca. 24 $/Monat
  • Ideal für: Podcasterinnen und Podcaster, die beides (Schnitt + Transkription) in einem Tool nutzen möchten

Otter.ai

  • Echtzeittranskription während Gespräch möglich
  • Gut für Interviews und Meetings
  • Hauptsächlich Englisch; Deutsch eingeschränkt
  • Kostenlos bis 300 Min./Monat; ab 10 $/Monat für mehr
  • Integration mit Zoom, Google Meet

Trint

  • Professionelles Transcription-Tool für Medienunternehmen
  • Multi-Sprachen-Support inkl. Deutsch
  • Gut integrierbare Bearbeitungsoberfläche
  • Ab ca. 52 €/Monat (Professional)

Happyscribe

  • Spezialisiert auf Europäische Sprachen inkl. Deutsch
  • Automatisch und manuell kombinierbar
  • Untertitel-Export für Video-Podcasts
  • Pay-per-use: ca. 0,17 €/Minute automatisch; 0,80 €/Minute mit menschlicher Prüfung

Rev.com

  • Hochqualitative menschliche Transkription
  • 1,50 $/Minute (englisch); auch automatisch ab 0,25 $/Minute
  • Hauptsächlich Englisch
  • Für: Hochwertige Archivtranskriptionen

Whisper-Wrapper-Tools (empfohlen für Deutsch):

  • MacWhisper (Mac, ca. 30 €): GUI für Whisper, einfache Bedienung
  • Whisperify / Whisper Transcription App: Verschiedene Wrapper für lokale Ausführung

Workflow: Transkription in der Podcast-Produktion

Optimierter Workflow:

  1. Fertig geschnittene Episode (MP3 oder WAV) → KI-Tool
  2. Automatisches Transkript prüfen und korrigieren (20–30 Min. für 60-Min. Episode)
  3. Transkript als Basis für Shownotes nutzen
  4. Transkript auf Website veröffentlichen (SEO)
  5. Highlights für Social Media extrahieren

Zeitersparnis durch Kombination: Descript → Schnitt + Transkription gleichzeitig → Shownotes-Entwurf per KI → Review → Veröffentlichung. Dieser kombinierte Workflow spart nach Erfahrungsberichten bis zu 60 % der Nachproduktionszeit.

Qualitätssicherung bei KI-Transkriptionen

Typische Fehlerquellen:

  • Fachbegriffe, Eigennamen, Abkürzungen werden falsch erkannt
  • Mehrere Sprecher werden gemischt (Diarisierung-Fehler)
  • Umgangssprache und Dialekt reduzieren Genauigkeit
  • Hintergrundgeräusche verschlechtern Erkennung

Korrektur-Tipps:

  • Mindest-Probe-Review: erste und letzte 5 Minuten sowie zufällige Stellen im Mittelteil
  • Eigennamen und Fachbegriffe manuell nachkontrollieren
  • Satzzeichensetzung überprüfen (KI-Interpunktion oft unvollständig)

Beispiele

KI-Transkription in der Praxis (Whisper via MacWhisper):

  1. Episode als WAV exportieren
  2. MacWhisper öffnen, Datei per Drag & Drop einfügen
  3. Sprache: Deutsch, Modell: large-v3 (beste Qualität)
  4. Transkription startet (Dauer ca. 1–2 Min. für 30-Min. Episode)
  5. TXT/SRT exportieren, in Shownotes-Workflow einfügen

In der Praxis

Podcast-Redaktionen großer Medien (ARD, NDR Podcasts) transkribieren alle Episoden – sowohl für barrierefreie Angebote als auch für interne Archivzwecke. Für unabhängige Podcasterinnen und Podcaster ist KI-Transkription inzwischen kostengünstig genug, um standardmäßig eingesetzt zu werden.

Laut einer Analyse von Buzzsprout (2023) verzeichnen Podcasts mit veröffentlichten Transkripten 25–35 % mehr organischen Google-Traffic.

Vergleich & Abgrenzung

Transkription vs. Closed Captions/Untertitel: Transkriptionen sind fortlaufender Text ohne Zeitstempel. Closed Captions/Untertitel sind zeitgestempelt und für Video oder eingebettete Audio-Player formatiert (SRT, VTT). Viele Tools exportieren beides.

Automatisch vs. manuell: Für Publikation mit hohem Qualitätsanspruch (Journalismus, Bildung) empfiehlt sich zumindest ein manueller Review-Schritt nach KI-Transkription.

Häufige Fragen (FAQ)

Welches Tool ist für Deutsch am besten? Whisper (large-v3 Modell) zeigt die beste Deutsch-Performance im unabhängigen Vergleich (2024). Happyscribe ist eine benutzerfreundliche Alternative mit deutschem Support.

Muss ich das Transkript öffentlich veröffentlichen? Nicht zwingend, aber empfohlen für SEO und Barrierefreiheit. Mindest-Option: Transkript auf eigener Website, nicht in den Podcast-Verzeichnissen.

Wie gehe ich mit Sprecherinnen-Kennzeichnung (Diarisierung) um? Tools wie Descript und Whisper-Diarization können verschiedene Stimmen trennen. Für mehr als 2 Stimmen ist manueller Review fast immer nötig.

Was kostet Transkription auf Dauer? Mit Whisper lokal: nahezu kostenlos. Mit Happyscribe automatisch: ca. 10 € für 60 Minuten. Mit manueller Überprüfung: ca. 50–80 € für 60 Minuten.

Verwandte Einträge

Weiterführend

  • OpenAI Whisper: GitHub-Repository – Technische Dokumentation (github.com/openai/whisper)
  • Happyscribe: Preisübersicht und Sprachunterstützung (happyscribe.com)
  • WHO: „World Report on Hearing" (2023) – Daten zu Hörbeeinträchtigungen
  • Barrierefreiheitsstärkungsgesetz (BFSG): Bundesministerium für Arbeit und Soziales, 2025
← Zurück zu Audio & Podcast
Infotag · 13. Mai · 15:00 Uhr · Vor Ort

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.

Ein halber Nachmittag, der dir drei Jahre Klarheit bringen kann. Kostenlos, unverbindlich, ehrlich.

  • Rundgang durch Studios, Schnitträume und Tonstudio
  • Echte Absolventenfilme sehen
  • 1:1-Beratung zu Bewerbung & BAföG
  • Studierende direkt fragen
  • Kaffee, kein Sales-Pitch
  • Auch online möglich

Platz beim Infotag reservieren

Dauert 30 Sekunden. Bestätigung per E-Mail.
100 % kostenlos · keine Verpflichtung · jederzeit absagbar
Podcast-Transkription (KI-Tools) — Wiki | Lazi Akademie Esslingen