KI-Transkription: Whisper, Descript, Grain

KI-Transkription bezeichnet die automatische Umwandlung von gesprochener Sprache in Text mittels KI-Modellen, mit einer Genauigkeit, die in vielen Anwendungsfällen manuelle Transkription nahezu überflüssig macht.

Rubrik: GenAI & Content Creation · Unterrubrik: KI-Workflows · Niveau: Einsteiger Synonyme / Auch bekannt als: Automatische Spracherkennung, Speech-to-Text, ASR (Automatic Speech Recognition)

Was ist KI-Transkription?

Bis 2022 war automatische Spracherkennung (ASR) notorisch unzuverlässig, besonders im Deutschen. Mit der Veröffentlichung von OpenAIs Whisper-Modell im September 2022 änderte sich das grundlegend: Whisper erreichte erstmals Transkriptionsgenauigkeiten, die manuelle Transkription für viele Anwendungsfälle ersetzen können.

Für Medienschaffende eröffnet das vollkommen neue Workflows: Podcasts werden in Minuten transkribiert, Interviews können textbasiert geschnitten werden, und stundenlange Aufnahmen liefern durchsuchbare Textdokumente.

Erklärung

Whisper (OpenAI, Open Source)

Whisper ist ein Open-Source-Spracherkennungsmodell von OpenAI, das unter der MIT-Lizenz veröffentlicht wurde.

Modellvarianten (Stand 2026):

Whisper Tiny: Minimal, für ressourcenarme Geräte
Whisper Base/Small/Medium: Gestaffelte Genauigkeit/Geschwindigkeit
Whisper Large v3: Beste Open-Source-Qualität, empfohlen für professionellen Einsatz
Whisper Large v3 Turbo (Sep 2024): 8x schneller als Large v3 bei ähnlicher Qualität (kein Translation-Modus)
GPT-4o Transcribe (März 2025): OpenAI-API-Dienst mit noch niedrigerer Fehlerrate als Whisper, kostenpflichtig

Sprachunterstützung: 97+ Sprachen. Deutsch: sehr hohe Genauigkeit (~95 %+ WER-Wert bei klarer Aufnahme). Dialekte werden mit jeder Version besser unterstützt.

Nutzungsoptionen:

Lokal (kostenlos): Auf eigenem Rechner ausführen via Python (whisper audio.mp3 --model large-v3 --language de). Erfordert 10 GB GPU/CPU-RAM für Large v3.
OpenAI API: Kommerzieller Service, 0,006 $/Minute Audio. Keine eigene GPU nötig.
Über Drittanbieter: Viele Tools (Descript, Grain, Otter.ai) nutzen Whisper im Backend.

Datenschutzvorteil: Lokale Ausführung, Audio-Dateien verlassen nie den eigenen Rechner.

Descript 5.x (2024)

Descript ist der de-facto-Standard für textbasierte Video- und Audio-Bearbeitung. Die Transkription ist ein integraler Bestandteil:

Features:

Automatische Transkription beim Import (Whisper-basiert)
Speaker-Diarization: Erkennt und benennt verschiedene Sprecher
Inline-Editing: Wort in Transkript löschen = Audiosequenz wird entfernt
Filler-Word-Entfernung: Automatische Erkennung von Ähms, Pausen
Korrekturen direkt im Transkript möglich
Export: Word, SRT, plain text, VTT

Preise (Stand 2026, jährliche Abrechnung):

Free: Begrenzte Nutzung
Hobbyist (24 $/Mo): 30 Stunden Medien, 4K-Export
Creator (35 $/Mo): Mehr Stunden, erweiterte KI-Features
Business (65 $/Mo): Team-Funktionen, Prioritäts-Support

Hinweis: Descript hat September 2025 sein Preismodell auf Media-Minutes plus KI-Credits umgestellt. Aktuelle Preise: descript.com/pricing.

Für Podcast-Produktion der empfohlene Einstieg: Transkription und Schnitt in einem Workflow.

Grain.com (für Meetings & Interviews)

Grain ist spezialisiert auf Meetings (Zoom, Google Meet, Teams) und Interviews:

Features:

Automatische Meeting-Aufnahme und -Transkription
KI-generierte Meeting-Zusammenfassungen
Highlight-Reel-Erstellung: Wichtigste Passagen in Clip-Form
CRM-Integration (HubSpot, Salesforce)
Smart Topics: KI identifiziert wiederkehrende Themen

Besonders geeignet für:

Journalisten, die Interviews via Videokonferenz führen
Content Teams, die Meeting-Inhalte für Content nutzen
Podcast-Redaktionen mit regelmäßigen Gäste-Interviews via Zoom

Preise (2024):

Free: 5 Stunden/Monat
Starter (15 $/Mo): 20 Stunden, CRM-Integration

Weitere wichtige Transkriptions-Tools

Otter.ai (2024):

US-amerikanischer Marktführer für Meeting-Transkription
Echtzeit-Transkription
Stärke: Englisch; Deutsch-Qualität unter Whisper-Standard
Preise: Free (300 Min/Monat), Pro (17 $/Mo)

Happy Scribe (2024):

Schwerpunkt: Professionelle Medienproduktion
Manuelle Korrekturoption (Hybrid-Service)
Unterstützt 60+ Sprachen, sehr gutes Deutsch
Preise: Pay-per-use (12 €/Stunde) oder Abo

Riverside.fm Transcription:

Direkt in Aufnahme-Workflow integriert
Automatische Transkription nach jeder Aufnahme
Ideal für Podcaster, die bereits Riverside nutzen

Whisper.ai / Poodll / Amberscript:

Spezialisierte Dienste für Bildung bzw. professionellen Journalismus

Beispiele

Beispiel 1: Podcast-Redaktion (wöchentlich, 60 Min.)

Rohaufnahme in Descript hochladen
Automatische Transkription: ~3 Minuten Wartezeit
Füllwörter entfernen lassen: 1-Klick
Rohschnitt via Transkript: 20 Minuten
Export: Audiodatei + SRT-Untertitel + Transkript-Textdatei

Beispiel 2: Interview-Recherche (Longform-Journalismus)

90-Minuten-Interview via Zoom → Grain zeichnet auf und transkribiert
KI-Zusammenfassung: Wichtigste Aussagen werden automatisch markiert
Volltext-Suche im Transkript nach Schlüsselzitaten
Zeitersparnis: 4 Stunden manuelle Transkription → 10 Minuten Durchsicht

Beispiel 3: Datenschutzkonforme Unternehmens-Transkription

Vertrauliche Management-Interviews
Lokales Whisper Large v3 auf eigenem Server
Daten verlassen das Unternehmen nicht
Kosten: nur Stromkosten (nach einmaliger Modell-Installation)

In der Praxis

Qualitätsfaktoren

Die Transkriptionsqualität hängt stark von der Aufnahmequalität ab:

Faktor	Einfluss
Aufnahmequalität	Größter Einfluss, gutes Mikrofon = 10–15 % besser
Hintergrundgeräusche	Stark negativ, ruhiger Raum priorisieren
Sprechtempo	Normal = optimal; sehr schnell/langsam = schlechter
Akzent/Dialekt	Je stärker, desto mehr Fehler
Fachwortschatz	Spezielle Terme oft falsch, Korrekturrunde einplanen

Typische Transkriptions-Fehler

Eigennamen und Markennamen: "ChatGPT" → "Tchat GBT" (selten bei Whisper v3)
Zahlen und Daten
Abkürzungen und Akronyme
Sprecherwechsel bei ähnlichen Stimmen

Empfehlung: Für veröffentlichbare Inhalte immer Korrekturrunde einplanen (15–20 Minuten pro Stunde Audio).

Vergleich & Abgrenzung

Tool	Genauigkeit (DE)	Preis	Datenschutz	Besonderheit
Whisper Large v3 (lokal)	Sehr gut	Kostenlos	Sehr hoch	Self-hosted
Descript	Sehr gut	Ab 0 $/Mo	Mittel	Schnitt-Integration
Grain	Gut	Ab 0 $/Mo	Mittel	Meeting-Fokus
Happy Scribe	Sehr gut	Ab 12 €/Std	Hoch (EU)	Manuelle Korrektur
Otter.ai	Mittel	Ab 0 $/Mo	Gering	Echtzeit-Funktion

Häufige Fragen (FAQ)

Wie genau ist KI-Transkription im Deutschen? Whisper Large v3 erreicht bei klaren Aufnahmen eine Wortfehlerrate (WER) von 3–8 % im Deutschen. Zum Vergleich: Menschliche Transkription liegt bei ~1–2 % WER. Für die meisten Medienproduktionen ist die Qualität ausreichend, wenn eine Korrekturrunde erfolgt.

Kann KI verschiedene Sprecher unterscheiden? Ja, "Speaker Diarization" ist in Descript, Grain und vielen anderen Tools integriert. Die Qualität variiert; bei 2–3 Sprechern mit deutlichen Stimmunterschieden funktioniert es sehr gut.

Ist es legal, Interviews automatisch zu transkribieren? Generell ja, wenn das Einverständnis der Interviewpartner vorliegt. Bei Cloud-Diensten muss die Datenweitergabe transparent gemacht werden. Für journalistische Interviews mit Quellenvertraulichkeit empfiehlt sich lokale Transkription mit Whisper.

Weiterführend

OpenAI (2022): Whisper: Robust Speech Recognition via Large-Scale Weak Supervision. arXiv:2212.04356.
Radford, A. et al. (2022): Robust Speech Recognition via Large-Scale Weak Supervision. OpenAI Technical Report.
Descript (2024): Transcription and Speaker Detection.
Happy Scribe (2024): German Speech Recognition Benchmark.

Was ist KI-Transkription?

Erklärung

Whisper (OpenAI, Open Source)

Descript 5.x (2024)

Grain.com (für Meetings & Interviews)

Weitere wichtige Transkriptions-Tools

Beispiele

In der Praxis

Qualitätsfaktoren

Typische Transkriptions-Fehler

Vergleich & Abgrenzung

Häufige Fragen (FAQ)

Verwandte Einträge

Weiterführend

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.

Platz beim Infotag reservieren

KI-Transkription: Whisper, Descript, Grain

Was ist KI-Transkription?

Erklärung

Whisper (OpenAI, Open Source)

Descript 5.x (2024)

Grain.com (für Meetings & Interviews)

Weitere wichtige Transkriptions-Tools

Beispiele

In der Praxis

Qualitätsfaktoren

Typische Transkriptions-Fehler

Vergleich & Abgrenzung

Häufige Fragen (FAQ)

Verwandte Einträge

Weiterführend

Sei am Mittwoch dabei.Bring Eltern oder Freunde mit.

Platz beim Infotag reservieren

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.