← Zurück zu GenAI & Content Creation
KI-Transkription bezeichnet die automatische Umwandlung von gesprochener Sprache in Text mittels KI-Modellen – mit einer Genauigkeit, die in vielen Anwendungsfällen manuelle Transkription nahezu überflüssig macht.

Rubrik: GenAI & Content Creation · Unterrubrik: KI-Workflows & Automatisierung · Niveau: Einsteiger Synonyme / Auch bekannt als: Automatische Spracherkennung, Speech-to-Text, ASR (Automatic Speech Recognition)


Was ist KI-Transkription?

Bis 2022 war automatische Spracherkennung (ASR) notorisch unzuverlässig, besonders im Deutschen. Mit der Veröffentlichung von OpenAIs Whisper-Modell im September 2022 änderte sich das grundlegend: Whisper erreichte erstmals Transkriptionsgenauigkeiten, die manuelle Transkription für viele Anwendungsfälle ersetzen können.

Für Medienschaffende eröffnet das vollkommen neue Workflows: Podcasts werden in Minuten transkribiert, Interviews können textbasiert geschnitten werden, und stundenlange Aufnahmen liefern durchsuchbare Textdokumente.


Erklärung

Whisper (OpenAI, Open Source)

Whisper ist ein Open-Source-Spracherkennungsmodell von OpenAI, das unter der MIT-Lizenz veröffentlicht wurde.

Modellvarianten (Whisper Large v3, 2024):

  • Whisper Tiny: Minimal, für ressourcenarme Geräte
  • Whisper Base/Small/Medium: Gestaffelte Genauigkeit/Geschwindigkeit
  • Whisper Large v3: Beste Qualität, empfohlen für professionellen Einsatz

Sprachunterstützung: 97+ Sprachen. Deutsch: sehr hohe Genauigkeit (~95 %+ WER-Wert bei klarer Aufnahme). Dialekte werden mit jeder Version besser unterstützt.

Nutzungsoptionen:

  1. Lokal (kostenlos): Auf eigenem Rechner ausführen via Python (whisper audio.mp3 --model large-v3 --language de). Erfordert 10 GB GPU/CPU-RAM für Large v3.
  2. OpenAI API: Kommerzieller Service, 0,006 $/Minute Audio. Keine eigene GPU nötig.
  3. Über Drittanbieter: Viele Tools (Descript, Grain, Otter.ai) nutzen Whisper im Backend.

Datenschutzvorteil: Lokale Ausführung – Audio-Dateien verlassen nie den eigenen Rechner.

Descript 5.x (2024)

Descript ist der de-facto-Standard für textbasierte Video- und Audio-Bearbeitung. Die Transkription ist ein integraler Bestandteil:

Features:

  • Automatische Transkription beim Import (Whisper-basiert)
  • Speaker-Diarization: Erkennt und benennt verschiedene Sprecher
  • Inline-Editing: Wort in Transkript löschen = Audiosequenz wird entfernt
  • Filler-Word-Entfernung: Automatische Erkennung von Ähms, Pausen
  • Korrekturen direkt im Transkript möglich
  • Export: Word, SRT, plain text, VTT

Preise:

  • Free: 1 Stunde Transkription/Monat
  • Creator (24 $/Mo): 10 Stunden, alle Schnitt-Features
  • Pro (40 $/Mo): Unbegrenzt, Farbkorrektur, erweiterte KI-Features

Für Podcast-Produktion der empfohlene Einstieg – Transkription und Schnitt in einem Workflow.

Grain.com (für Meetings & Interviews)

Grain ist spezialisiert auf Meetings (Zoom, Google Meet, Teams) und Interviews:

Features:

  • Automatische Meeting-Aufnahme und -Transkription
  • KI-generierte Meeting-Zusammenfassungen
  • Highlight-Reel-Erstellung: Wichtigste Passagen in Clip-Form
  • CRM-Integration (HubSpot, Salesforce)
  • Smart Topics: KI identifiziert wiederkehrende Themen

Besonders geeignet für:

  • Journalisten, die Interviews via Videokonferenz führen
  • Content Teams, die Meeting-Inhalte für Content nutzen
  • Podcast-Redaktionen mit regelmäßigen Gäste-Interviews via Zoom

Preise (2024):

  • Free: 5 Stunden/Monat
  • Starter (15 $/Mo): 20 Stunden, CRM-Integration

Weitere wichtige Transkriptions-Tools

Otter.ai (2024):

  • US-amerikanischer Marktführer für Meeting-Transkription
  • Echtzeit-Transkription
  • Stärke: Englisch; Deutsch-Qualität unter Whisper-Standard
  • Preise: Free (300 Min/Monat), Pro (17 $/Mo)

Happy Scribe (2024):

  • Schwerpunkt: Professionelle Medienproduktion
  • Manuelle Korrekturoption (Hybrid-Service)
  • Unterstützt 60+ Sprachen, sehr gutes Deutsch
  • Preise: Pay-per-use (12 €/Stunde) oder Abo

Riverside.fm Transcription:

  • Direkt in Aufnahme-Workflow integriert
  • Automatische Transkription nach jeder Aufnahme
  • Ideal für Podcaster, die bereits Riverside nutzen

Whisper.ai / Poodll / Amberscript:

  • Spezialisierte Dienste für Bildung bzw. professionellen Journalismus

Beispiele

Beispiel 1: Podcast-Redaktion (wöchentlich, 60 Min.)

  • Rohaufnahme in Descript hochladen
  • Automatische Transkription: ~3 Minuten Wartezeit
  • Füllwörter entfernen lassen: 1-Klick
  • Rohschnitt via Transkript: 20 Minuten
  • Export: Audiodatei + SRT-Untertitel + Transkript-Textdatei

Beispiel 2: Interview-Recherche (Longform-Journalismus)

  • 90-Minuten-Interview via Zoom → Grain zeichnet auf und transkribiert
  • KI-Zusammenfassung: Wichtigste Aussagen werden automatisch markiert
  • Volltext-Suche im Transkript nach Schlüsselzitaten
  • Zeitersparnis: 4 Stunden manuelle Transkription → 10 Minuten Durchsicht

Beispiel 3: Datenschutzkonforme Unternehmens-Transkription

  • Vertrauliche Management-Interviews
  • Lokales Whisper Large v3 auf eigenem Server
  • Daten verlassen das Unternehmen nicht
  • Kosten: nur Stromkosten (nach einmaliger Modell-Installation)

In der Praxis

Qualitätsfaktoren

Die Transkriptionsqualität hängt stark von der Aufnahmequalität ab:

FaktorEinfluss
AufnahmequalitätGrößter Einfluss – gutes Mikrofon = 10–15 % besser
HintergrundgeräuscheStark negativ – ruhiger Raum priorisieren
SprechtempoNormal = optimal; sehr schnell/langsam = schlechter
Akzent/DialektJe stärker, desto mehr Fehler
FachwortschatzSpezielle Terme oft falsch – Korrekturrunde einplanen

Typische Transkriptions-Fehler

  • Eigennamen und Markennamen: "ChatGPT" → "Tchat GBT" (selten bei Whisper v3)
  • Zahlen und Daten
  • Abkürzungen und Akronyme
  • Sprecherwechsel bei ähnlichen Stimmen

Empfehlung: Für veröffentlichbare Inhalte immer Korrekturrunde einplanen (15–20 Minuten pro Stunde Audio).


Vergleich & Abgrenzung

ToolGenauigkeit (DE)PreisDatenschutzBesonderheit
Whisper Large v3 (lokal)Sehr gutKostenlosSehr hochSelf-hosted
DescriptSehr gutAb 0 $/MoMittelSchnitt-Integration
GrainGutAb 0 $/MoMittelMeeting-Fokus
Happy ScribeSehr gutAb 12 €/StdHoch (EU)Manuelle Korrektur
Otter.aiMittelAb 0 $/MoGeringEchtzeit-Funktion

Häufige Fragen (FAQ)

Wie genau ist KI-Transkription im Deutschen? Whisper Large v3 erreicht bei klaren Aufnahmen eine Wortfehlerrate (WER) von 3–8 % im Deutschen. Zum Vergleich: Menschliche Transkription liegt bei ~1–2 % WER. Für die meisten Medienproduktionen ist die Qualität ausreichend, wenn eine Korrekturrunde erfolgt.

Kann KI verschiedene Sprecher unterscheiden? Ja – "Speaker Diarization" ist in Descript, Grain und vielen anderen Tools integriert. Die Qualität variiert; bei 2–3 Sprechern mit deutlichen Stimmunterschieden funktioniert es sehr gut.

Ist es legal, Interviews automatisch zu transkribieren? Generell ja, wenn das Einverständnis der Interviewpartner vorliegt. Bei Cloud-Diensten muss die Datenweitergabe transparent gemacht werden. Für journalistische Interviews mit Quellenvertraulichkeit empfiehlt sich lokale Transkription mit Whisper.


Verwandte Einträge


Weiterführend

  • OpenAI (2022): Whisper: Robust Speech Recognition via Large-Scale Weak Supervision. arXiv:2212.04356.
  • Radford, A. et al. (2022): Robust Speech Recognition via Large-Scale Weak Supervision. OpenAI Technical Report.
  • Descript (2024): Transcription and Speaker Detection.
  • Happy Scribe (2024): German Speech Recognition Benchmark.
← Zurück zu GenAI & Content Creation
Infotag · 13. Mai · 15:00 Uhr · Vor Ort

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.

Ein halber Nachmittag, der dir drei Jahre Klarheit bringen kann. Kostenlos, unverbindlich, ehrlich.

  • Rundgang durch Studios, Schnitträume und Tonstudio
  • Echte Absolventenfilme sehen
  • 1:1-Beratung zu Bewerbung & BAföG
  • Studierende direkt fragen
  • Kaffee, kein Sales-Pitch
  • Auch online möglich

Platz beim Infotag reservieren

Dauert 30 Sekunden. Bestätigung per E-Mail.
100 % kostenlos · keine Verpflichtung · jederzeit absagbar