Eine Voiceover-Aufnahme (Voice-Over) ist eine professionelle Sprachaufnahme für Medienproduktionen, von Filmvertonungen und Werbespots bis zu Podcast-Episoden und E-Learning-Kursen.
Rubrik: Audio & Podcast · Unterrubrik: Tontechnik · Niveau: Einsteiger Synonyme / Auch bekannt als: Voice-Over, VO, Sprachaufnahme, Synchronaufnahme, Off-Stimme
Was ist Voiceover?
Ein Voice-Over ist eine gesprochene Narration, die nicht an eine auf dem Bildschirm sichtbare Person gebunden ist, die Stimme kommt „von oben" (über dem Bild), daher der Name. Im professionellen Bereich schließt der Begriff aber alle Arten professioneller Sprachaufnahmen ein: Produktionsvertoning, Hörbücher, Dokumentationen, Lernvideos und Podcasts.
Die Qualität eines Voice-Overs entscheidet oft über die Gesamtwahrnehmung einer Produktion. Eine schlecht aufgenommene Stimme macht den besten visuellen Content unglaubwürdig; eine sauber produzierte Stimme kann selbst einfache Bildstrecken stark aufwerten.
Erklärung
Das Setup: Equipment und Raum
Mikrofon: Für Voice-Over eignen sich sowohl Kondensatormikrofone als auch dynamische Mikrofone. Die Wahl hängt von der Abhörsituation und dem Raumcharakter ab:
- Kondensatormikrofon (z. B. Rode NT1, Neumann TLM 103): Sehr detailreich, empfindlich für Raumakustik, nur in behandeltem Raum sinnvoll
- Dynamisches Mikrofon (z. B. Shure SM7B, Electro-Voice RE20): Weniger empfindlich für Raumreflexionen, robuster gegen Hintergrundgeräusche
Audio-Interface: Das Mikrofon wird über ein Audio-Interface mit dem Computer verbunden. Für Voice-Over reicht ein einkanaliges Interface (Focusrite Scarlett Solo, Universal Audio Volt 1). Wichtig: Ausreichend Vorverstärker-Gain, besonders das SM7B benötigt viel Gain (ggf. Cloud Lifter als Boost-Preamp).
Raum: Der Raum ist der wichtigste Faktor. Ziel: Kurzer RT60 (0,2–0,4 s), keine Reflexionen von Wänden in das Mikrofon. Praktische Lösungen:
- Kleines, möbliertes Zimmer (Schlafzimmer, Ankleide)
- Reflexionsfilter (Akustikschirm) hinter dem Mikrofon
- Nahfeld-Aufnahme (Mikrofon 15–25 cm entfernt vom Mund)
Pop-Filter: Immer verwenden! Plosive (P, B, T) erzeugen starke Luftstöße, die das Mikrofon überlasten. Ein Pop-Filter im Abstand von 5–10 cm vor dem Mikrofon eliminiert diese Plosive.
Aufnahme-Workflow
1. Skript-Vorbereitung und Timing Professionelle Voice-Over-Sprecher bereiten Skripte vor dem Aufnehmen gründlich vor:
- Unbekannte Wörter recherchieren und phonetisch notieren
- Satzzeichen als Atempausen nutzen (kein Atemgeräusch mitten im Satz)
- Markierungen für Betonung und Rhythmus setzen
- Timing: Bei Synchronsprache muss die Sprachdauer dem Originaldialog entsprechen
2. Gain-Setting Vorverstärker so einstellen, dass normale Sprachlautstärke ca. -18 dBFS RMS liefert. Peak nicht über -6 dBFS.
3. Aufnahme
- In Takes (Abschnitte) aufnehmen, nicht den gesamten Text in einem Durch
- Fehler sofort wiederholen (kurze Pause, dann nochmal der Satz)
- Atemgeräusche bewusst kontrollieren: Vor Satzanfängen tief durch die Nase atmen, nicht durch den Mund
4. Schnitt-Session
- Fehler-Takes herausschneiden und beste Varianten wählen
- Pausen zwischen Sätzen auf konsistentes Timing angleichen
Post-Produktion: Die Bearbeitungskette
Schritt 1: Noise Reduction Als erstes störendes Grundrauschen oder Klimaanlagengeräusche entfernen (iZotope RX, Audacity).
Schritt 2: High-Pass-Filter HPF bei 80–100 Hz, entfernt Trittschall, Raumrumpeln, tieffrequente Interferenzen.
Schritt 3: EQ Korrektur der Klangfarbe:
- Cut bei ca. 300–400 Hz falls muffig (schmalband, -2 bis -4 dB)
- Boost bei 2–4 kHz für mehr Sprachverständlichkeit (+1 bis +2 dB)
Schritt 4: Kompressor Lautstärke-Dynamik kontrollieren:
- Ratio 3:1–4:1
- Threshold bei ca. -20 dBFS
- Attack 10–20 ms, Release 80–120 ms
- Makeup Gain anpassen
Schritt 5: De-Essing Zischlaute (S, Sch, Z) entstehen bei 5–10 kHz und können sehr unangenehm sein. Ein De-Esser ist ein dynamischer EQ oder Kompressor, der nur in diesem Frequenzbereich aktiv wird, wenn die Intensität einen Schwellenwert überschreitet.
Tools: Waves Renaissance DeEsser, FabFilter Pro-DS, iZotope Dialogue De-esser, Cha-Ching-Effekt (DAW-interner De-Esser in Logic Pro).
Schritt 6: Atemgeräusche entfernen Manuelle Methode: Atemgeräusche in der DAW-Wellenform identifizieren, Gain Automation auf -∞ oder sehr leise setzen.
Automatisch: iZotope RX Breath Control erkennt und reduziert Atemgeräusche automatisch.
Schritt 7: Lautstärke angleichen Satzübergreifende Lautstärkeunterschiede per Gain-Automation oder Adobe Audition „Auto-Level" angleichen. Ziel: -18 bis -16 dBFS RMS.
Schritt 8: Finale Normalisierung Export auf Broadcast-Standard:
- EBU R128 (Europa): -23 LUFS Integrated, -1 dBTP
- Podcast: -16 LUFS Integrated, -1 dBTP
- YouTube/Streaming: -14 LUFS Integrated, -1 dBTP
Übergabe-Formate
- Broadcast (TV, Film): WAV 48 kHz / 24 Bit, EBU R128
- Podcast: MP3 128 kbps (Mono) oder WAV 44,1 kHz / 16 Bit
- E-Learning/Online: MP3 128–192 kbps oder AAC 128 kbps
- ADR (Automated Dialogue Replacement): WAV 48 kHz / 24 Bit, trocken (kein Reverb), mit Timecode-Referenz
Beispiele
- Podcast-Intro: Sprecher nimmt seinen Teaser-Text im Homerecording mit SM7B und Focusrite Scarlett auf. Chain: HPF → Kompressor → De-Esser → Normalisierung auf -16 LUFS.
- Hörspiel-Produktion: Ein Hörspiel-Sprecher nimmt Szenen in einer schalltoten Kabine auf. Der Tonmeister bearbeitet die Rohdaten: iZotope RX Breath Control, EQ, Kompressor. Danach Raum-Reverb per Send für die entsprechende Szene.
- Corporate Video: Eine Sprecherin vertont einen Imagefilm. Skript mit Timecodes, Aufnahme in Takes, Sync-Prüfung gegen Videoschnitt, Lieferung als WAV 48 kHz trocken an den Cutter.
- E-Learning-Kurs: Ein Dozent spricht Kursmodule in seinem Homerecording ein. Auphonic normalisiert automatisch auf EBU R128, zeitsparend und professionell.
- Rundfunk-Feature: Für einen Radiobeitrag werden Interviewszenen mit O-Tönen nachbearbeitet. Alle Spuren auf -23 LUFS (EBU R128) normalisiert und als BWF geliefert.
In der Praxis
Der häufigste Fehler beim Voice-Over: Zu viel Abstand zum Mikrofon. Je weiter weg, desto mehr Raumanteil nimmt das Mikrofon auf. 15–25 cm Abstand ist für die meisten Kondensatormikrofone optimal; beim SM7B 5–15 cm.
Nähe-Effekt: Richtmikrofone klingen bei sehr geringem Abstand bassreicher, das ist der Nähe-Effekt (Proximity Effect). Das kann warm klingen, wird aber schnell muffig. HPF oder leichter Low-Shelf-Cut korrigiert das.
Vergleich & Abgrenzung
Voice-Over vs. ADR (Automated Dialogue Replacement): ADR ist die Nachsynchronisation von Dialog aus einem Film, die Lippen-Synchronität mit dem Originalbild ist kritisch. Voice-Over hat diesen Constraint nicht (außer bei Synchronsprache).
Voice-Over vs. Podcast: Technisch sehr ähnlich. Der Hauptunterschied: Voice-Over ist meist Einzel-Aufnahme mit Skript; Podcast oft Gespräch ohne vollständiges Skript, erfordert mehr Schnittkompetenz.
Häufige Fragen (FAQ)
Brauche ich eine schalltote Kabine für professionelles Voice-Over? Nein, aber ein ruhiger, wenig halliger Raum ist essenziell. Viele professionelle Voice-Over-Sprecher arbeiten erfolgreich aus dem Homerecording-Setup mit akustisch behandeltem Schlafzimmer oder einem DIY-Aufnahmeschrank (z. B. Kleiderschrank mit Jacken rundherum). Wichtig ist, dass keine hörbaren Reflexionen im Signal sind.
Wie laut soll ich sprechen? Natürlich und variiert, nicht monoton und nicht durchgehend laut. Die Lautstärke-Kontrolle übernimmt der Kompressor in der Post-Produktion. Wichtig: Vermeiden, dass Peaks über -6 dBFS gehen, damit kein Clipping entsteht.
Verwandte Einträge
- Mikrofon-Typen, Welche Mikrofone für Voice-Over geeignet sind
- Raumakustik, Raumoptimierung für professionelle Sprachaufnahmen
- Noise-Reduction, Unerwünschte Geräusche in der Post-Produktion entfernen
Weiterführend
- Tomlinson, Douglas (1985): Voice Acting. Allworth Press.
- Thomas, Harlan (2013): The Art of Voice Acting. 5. Aufl., Focal Press.
- EBU (2020): EBU R128, Loudness Normalisation and Permitted Maximum Level of Audio Signals.

