KI-Transkription bezeichnet die automatische Umwandlung von gesprochener Sprache in Text mittels KI-Modellen – mit einer Genauigkeit, die in vielen Anwendungsfällen manuelle Transkription nahezu überflüssig macht.
Rubrik: GenAI & Content Creation · Unterrubrik: KI-Workflows & Automatisierung · Niveau: Einsteiger Synonyme / Auch bekannt als: Automatische Spracherkennung, Speech-to-Text, ASR (Automatic Speech Recognition)
Was ist KI-Transkription?
Bis 2022 war automatische Spracherkennung (ASR) notorisch unzuverlässig, besonders im Deutschen. Mit der Veröffentlichung von OpenAIs Whisper-Modell im September 2022 änderte sich das grundlegend: Whisper erreichte erstmals Transkriptionsgenauigkeiten, die manuelle Transkription für viele Anwendungsfälle ersetzen können.
Für Medienschaffende eröffnet das vollkommen neue Workflows: Podcasts werden in Minuten transkribiert, Interviews können textbasiert geschnitten werden, und stundenlange Aufnahmen liefern durchsuchbare Textdokumente.
Erklärung
Whisper (OpenAI, Open Source)
Whisper ist ein Open-Source-Spracherkennungsmodell von OpenAI, das unter der MIT-Lizenz veröffentlicht wurde.
Modellvarianten (Whisper Large v3, 2024):
- Whisper Tiny: Minimal, für ressourcenarme Geräte
- Whisper Base/Small/Medium: Gestaffelte Genauigkeit/Geschwindigkeit
- Whisper Large v3: Beste Qualität, empfohlen für professionellen Einsatz
Sprachunterstützung: 97+ Sprachen. Deutsch: sehr hohe Genauigkeit (~95 %+ WER-Wert bei klarer Aufnahme). Dialekte werden mit jeder Version besser unterstützt.
Nutzungsoptionen:
- Lokal (kostenlos): Auf eigenem Rechner ausführen via Python (
whisper audio.mp3 --model large-v3 --language de). Erfordert 10 GB GPU/CPU-RAM für Large v3. - OpenAI API: Kommerzieller Service, 0,006 $/Minute Audio. Keine eigene GPU nötig.
- Über Drittanbieter: Viele Tools (Descript, Grain, Otter.ai) nutzen Whisper im Backend.
Datenschutzvorteil: Lokale Ausführung – Audio-Dateien verlassen nie den eigenen Rechner.
Descript 5.x (2024)
Descript ist der de-facto-Standard für textbasierte Video- und Audio-Bearbeitung. Die Transkription ist ein integraler Bestandteil:
Features:
- Automatische Transkription beim Import (Whisper-basiert)
- Speaker-Diarization: Erkennt und benennt verschiedene Sprecher
- Inline-Editing: Wort in Transkript löschen = Audiosequenz wird entfernt
- Filler-Word-Entfernung: Automatische Erkennung von Ähms, Pausen
- Korrekturen direkt im Transkript möglich
- Export: Word, SRT, plain text, VTT
Preise:
- Free: 1 Stunde Transkription/Monat
- Creator (24 $/Mo): 10 Stunden, alle Schnitt-Features
- Pro (40 $/Mo): Unbegrenzt, Farbkorrektur, erweiterte KI-Features
Für Podcast-Produktion der empfohlene Einstieg – Transkription und Schnitt in einem Workflow.
Grain.com (für Meetings & Interviews)
Grain ist spezialisiert auf Meetings (Zoom, Google Meet, Teams) und Interviews:
Features:
- Automatische Meeting-Aufnahme und -Transkription
- KI-generierte Meeting-Zusammenfassungen
- Highlight-Reel-Erstellung: Wichtigste Passagen in Clip-Form
- CRM-Integration (HubSpot, Salesforce)
- Smart Topics: KI identifiziert wiederkehrende Themen
Besonders geeignet für:
- Journalisten, die Interviews via Videokonferenz führen
- Content Teams, die Meeting-Inhalte für Content nutzen
- Podcast-Redaktionen mit regelmäßigen Gäste-Interviews via Zoom
Preise (2024):
- Free: 5 Stunden/Monat
- Starter (15 $/Mo): 20 Stunden, CRM-Integration
Weitere wichtige Transkriptions-Tools
Otter.ai (2024):
- US-amerikanischer Marktführer für Meeting-Transkription
- Echtzeit-Transkription
- Stärke: Englisch; Deutsch-Qualität unter Whisper-Standard
- Preise: Free (300 Min/Monat), Pro (17 $/Mo)
Happy Scribe (2024):
- Schwerpunkt: Professionelle Medienproduktion
- Manuelle Korrekturoption (Hybrid-Service)
- Unterstützt 60+ Sprachen, sehr gutes Deutsch
- Preise: Pay-per-use (12 €/Stunde) oder Abo
Riverside.fm Transcription:
- Direkt in Aufnahme-Workflow integriert
- Automatische Transkription nach jeder Aufnahme
- Ideal für Podcaster, die bereits Riverside nutzen
Whisper.ai / Poodll / Amberscript:
- Spezialisierte Dienste für Bildung bzw. professionellen Journalismus
Beispiele
Beispiel 1: Podcast-Redaktion (wöchentlich, 60 Min.)
- Rohaufnahme in Descript hochladen
- Automatische Transkription: ~3 Minuten Wartezeit
- Füllwörter entfernen lassen: 1-Klick
- Rohschnitt via Transkript: 20 Minuten
- Export: Audiodatei + SRT-Untertitel + Transkript-Textdatei
Beispiel 2: Interview-Recherche (Longform-Journalismus)
- 90-Minuten-Interview via Zoom → Grain zeichnet auf und transkribiert
- KI-Zusammenfassung: Wichtigste Aussagen werden automatisch markiert
- Volltext-Suche im Transkript nach Schlüsselzitaten
- Zeitersparnis: 4 Stunden manuelle Transkription → 10 Minuten Durchsicht
Beispiel 3: Datenschutzkonforme Unternehmens-Transkription
- Vertrauliche Management-Interviews
- Lokales Whisper Large v3 auf eigenem Server
- Daten verlassen das Unternehmen nicht
- Kosten: nur Stromkosten (nach einmaliger Modell-Installation)
In der Praxis
Qualitätsfaktoren
Die Transkriptionsqualität hängt stark von der Aufnahmequalität ab:
| Faktor | Einfluss |
|---|---|
| Aufnahmequalität | Größter Einfluss – gutes Mikrofon = 10–15 % besser |
| Hintergrundgeräusche | Stark negativ – ruhiger Raum priorisieren |
| Sprechtempo | Normal = optimal; sehr schnell/langsam = schlechter |
| Akzent/Dialekt | Je stärker, desto mehr Fehler |
| Fachwortschatz | Spezielle Terme oft falsch – Korrekturrunde einplanen |
Typische Transkriptions-Fehler
- Eigennamen und Markennamen: "ChatGPT" → "Tchat GBT" (selten bei Whisper v3)
- Zahlen und Daten
- Abkürzungen und Akronyme
- Sprecherwechsel bei ähnlichen Stimmen
Empfehlung: Für veröffentlichbare Inhalte immer Korrekturrunde einplanen (15–20 Minuten pro Stunde Audio).
Vergleich & Abgrenzung
| Tool | Genauigkeit (DE) | Preis | Datenschutz | Besonderheit |
|---|---|---|---|---|
| Whisper Large v3 (lokal) | Sehr gut | Kostenlos | Sehr hoch | Self-hosted |
| Descript | Sehr gut | Ab 0 $/Mo | Mittel | Schnitt-Integration |
| Grain | Gut | Ab 0 $/Mo | Mittel | Meeting-Fokus |
| Happy Scribe | Sehr gut | Ab 12 €/Std | Hoch (EU) | Manuelle Korrektur |
| Otter.ai | Mittel | Ab 0 $/Mo | Gering | Echtzeit-Funktion |
Häufige Fragen (FAQ)
Wie genau ist KI-Transkription im Deutschen? Whisper Large v3 erreicht bei klaren Aufnahmen eine Wortfehlerrate (WER) von 3–8 % im Deutschen. Zum Vergleich: Menschliche Transkription liegt bei ~1–2 % WER. Für die meisten Medienproduktionen ist die Qualität ausreichend, wenn eine Korrekturrunde erfolgt.
Kann KI verschiedene Sprecher unterscheiden? Ja – "Speaker Diarization" ist in Descript, Grain und vielen anderen Tools integriert. Die Qualität variiert; bei 2–3 Sprechern mit deutlichen Stimmunterschieden funktioniert es sehr gut.
Ist es legal, Interviews automatisch zu transkribieren? Generell ja, wenn das Einverständnis der Interviewpartner vorliegt. Bei Cloud-Diensten muss die Datenweitergabe transparent gemacht werden. Für journalistische Interviews mit Quellenvertraulichkeit empfiehlt sich lokale Transkription mit Whisper.
Verwandte Einträge
- Automatische Untertitel mit KI
- KI-Workflow für Podcast-Produktion
- KI in der Videobearbeitung: CapCut, Descript, Runway
- KI-Workflow für Videoproduktion
Weiterführend
- OpenAI (2022): Whisper: Robust Speech Recognition via Large-Scale Weak Supervision. arXiv:2212.04356.
- Radford, A. et al. (2022): Robust Speech Recognition via Large-Scale Weak Supervision. OpenAI Technical Report.
- Descript (2024): Transcription and Speaker Detection.
- Happy Scribe (2024): German Speech Recognition Benchmark.
