Eine Voiceover-Aufnahme (Voice-Over) ist eine professionelle Sprachaufnahme für Medienproduktionen – von Filmvertonungen und Werbespots bis zu Podcast-Episoden und E-Learning-Kursen.
Rubrik: Audio & Podcast · Unterrubrik: Tontechnik · Niveau: Einsteiger Synonyme / Auch bekannt als: Voice-Over, VO, Sprachaufnahme, Synchronaufnahme, Off-Stimme
Was ist Voiceover?
Ein Voice-Over ist eine gesprochene Narration, die nicht an eine auf dem Bildschirm sichtbare Person gebunden ist – die Stimme kommt „von oben" (über dem Bild), daher der Name. Im professionellen Bereich schließt der Begriff aber alle Arten professioneller Sprachaufnahmen ein: Produktionsvertoning, Hörbücher, Dokumentationen, Lernvideos und Podcasts.
Die Qualität eines Voice-Overs entscheidet oft über die Gesamtwahrnehmung einer Produktion. Eine schlecht aufgenommene Stimme macht den besten visuellen Content unglaubwürdig; eine sauber produzierte Stimme kann selbst einfache Bildstrecken stark aufwerten.
Erklärung
Das Setup: Equipment und Raum
Mikrofon: Für Voice-Over eignen sich sowohl Kondensatormikrofone als auch dynamische Mikrofone. Die Wahl hängt von der Abhörsituation und dem Raumcharakter ab:
- Kondensatormikrofon (z. B. Rode NT1, Neumann TLM 103): Sehr detailreich, empfindlich für Raumakustik – nur in behandeltem Raum sinnvoll
- Dynamisches Mikrofon (z. B. Shure SM7B, Electro-Voice RE20): Weniger empfindlich für Raumreflexionen, robuster gegen Hintergrundgeräusche
Audio-Interface: Das Mikrofon wird über ein Audio-Interface mit dem Computer verbunden. Für Voice-Over reicht ein einkanaliges Interface (Focusrite Scarlett Solo, Universal Audio Volt 1). Wichtig: Ausreichend Vorverstärker-Gain – besonders das SM7B benötigt viel Gain (ggf. Cloud Lifter als Boost-Preamp).
Raum: Der Raum ist der wichtigste Faktor. Ziel: Kurzer RT60 (0,2–0,4 s), keine Reflexionen von Wänden in das Mikrofon. Praktische Lösungen:
- Kleines, möbliertes Zimmer (Schlafzimmer, Ankleide)
- Reflexionsfilter (Akustikschirm) hinter dem Mikrofon
- Nahfeld-Aufnahme (Mikrofon 15–25 cm entfernt vom Mund)
Pop-Filter: Immer verwenden! Plosive (P, B, T) erzeugen starke Luftstöße, die das Mikrofon überlasten. Ein Pop-Filter im Abstand von 5–10 cm vor dem Mikrofon eliminiert diese Plosive.
Aufnahme-Workflow
1. Skript-Vorbereitung und Timing Professionelle Voice-Over-Sprecher bereiten Skripte vor dem Aufnehmen gründlich vor:
- Unbekannte Wörter recherchieren und phonetisch notieren
- Satzzeichen als Atempausen nutzen (kein Atemgeräusch mitten im Satz)
- Markierungen für Betonung und Rhythmus setzen
- Timing: Bei Synchronsprache muss die Sprachdauer dem Originaldialog entsprechen
2. Gain-Setting Vorverstärker so einstellen, dass normale Sprachlautstärke ca. -18 dBFS RMS liefert. Peak nicht über -6 dBFS.
3. Aufnahme
- In Takes (Abschnitte) aufnehmen, nicht den gesamten Text in einem Durch
- Fehler sofort wiederholen (kurze Pause, dann nochmal der Satz)
- Atemgeräusche bewusst kontrollieren: Vor Satzanfängen tief durch die Nase atmen, nicht durch den Mund
4. Schnitt-Session
- Fehler-Takes herausschneiden und beste Varianten wählen
- Pausen zwischen Sätzen auf konsistentes Timing angleichen
Post-Produktion: Die Bearbeitungskette
Schritt 1: Noise Reduction Als erstes störendes Grundrauschen oder Klimaanlagengeräusche entfernen (iZotope RX, Audacity).
Schritt 2: High-Pass-Filter HPF bei 80–100 Hz – entfernt Trittschall, Raumrumpeln, tieffrequente Interferenzen.
Schritt 3: EQ Korrektur der Klangfarbe:
- Cut bei ca. 300–400 Hz falls muffig (schmalband, -2 bis -4 dB)
- Boost bei 2–4 kHz für mehr Sprachverständlichkeit (+1 bis +2 dB)
Schritt 4: Kompressor Lautstärke-Dynamik kontrollieren:
- Ratio 3:1–4:1
- Threshold bei ca. -20 dBFS
- Attack 10–20 ms, Release 80–120 ms
- Makeup Gain anpassen
Schritt 5: De-Essing Zischlaute (S, Sch, Z) entstehen bei 5–10 kHz und können sehr unangenehm sein. Ein De-Esser ist ein dynamischer EQ oder Kompressor, der nur in diesem Frequenzbereich aktiv wird, wenn die Intensität einen Schwellenwert überschreitet.
Tools: Waves Renaissance DeEsser, FabFilter Pro-DS, iZotope Dialogue De-esser, Cha-Ching-Effekt (DAW-interner De-Esser in Logic Pro).
Schritt 6: Atemgeräusche entfernen Manuelle Methode: Atemgeräusche in der DAW-Wellenform identifizieren, Gain Automation auf -∞ oder sehr leise setzen.
Automatisch: iZotope RX Breath Control erkennt und reduziert Atemgeräusche automatisch.
Schritt 7: Lautstärke angleichen Satzübergreifende Lautstärkeunterschiede per Gain-Automation oder Adobe Audition „Auto-Level" angleichen. Ziel: -18 bis -16 dBFS RMS.
Schritt 8: Finale Normalisierung Export auf Broadcast-Standard:
- EBU R128 (Europa): -23 LUFS Integrated, -1 dBTP
- Podcast: -16 LUFS Integrated, -1 dBTP
- YouTube/Streaming: -14 LUFS Integrated, -1 dBTP
Übergabe-Formate
- Broadcast (TV, Film): WAV 48 kHz / 24 Bit, EBU R128
- Podcast: MP3 128 kbps (Mono) oder WAV 44,1 kHz / 16 Bit
- E-Learning/Online: MP3 128–192 kbps oder AAC 128 kbps
- ADR (Automated Dialogue Replacement): WAV 48 kHz / 24 Bit, trocken (kein Reverb), mit Timecode-Referenz
Beispiele
- Podcast-Intro: Sprecher nimmt seinen Teaser-Text im Homerecording mit SM7B und Focusrite Scarlett auf. Chain: HPF → Kompressor → De-Esser → Normalisierung auf -16 LUFS.
- Hörspiel-Produktion: Ein Hörspiel-Sprecher nimmt Szenen in einer schalltoten Kabine auf. Der Tonmeister bearbeitet die Rohdaten: iZotope RX Breath Control, EQ, Kompressor. Danach Raum-Reverb per Send für die entsprechende Szene.
- Corporate Video: Eine Sprecherin vertont einen Imagefilm. Skript mit Timecodes, Aufnahme in Takes, Sync-Prüfung gegen Videoschnitt, Lieferung als WAV 48 kHz trocken an den Cutter.
- E-Learning-Kurs: Ein Dozent spricht Kursmodule in seinem Homerecording ein. Auphonic normalisiert automatisch auf EBU R128 – zeitsparend und professionell.
- Rundfunk-Feature: Für einen Radiobeitrag werden Interviewszenen mit O-Tönen nachbearbeitet. Alle Spuren auf -23 LUFS (EBU R128) normalisiert und als BWF geliefert.
In der Praxis
Der häufigste Fehler beim Voice-Over: Zu viel Abstand zum Mikrofon. Je weiter weg, desto mehr Raumanteil nimmt das Mikrofon auf. 15–25 cm Abstand ist für die meisten Kondensatormikrofone optimal; beim SM7B 5–15 cm.
Nähe-Effekt: Richtmikrofone klingen bei sehr geringem Abstand bassreicher – das ist der Nähe-Effekt (Proximity Effect). Das kann warm klingen, wird aber schnell muffig. HPF oder leichter Low-Shelf-Cut korrigiert das.
Vergleich & Abgrenzung
Voice-Over vs. ADR (Automated Dialogue Replacement): ADR ist die Nachsynchronisation von Dialog aus einem Film – die Lippen-Synchronität mit dem Originalbild ist kritisch. Voice-Over hat diesen Constraint nicht (außer bei Synchronsprache).
Voice-Over vs. Podcast: Technisch sehr ähnlich. Der Hauptunterschied: Voice-Over ist meist Einzel-Aufnahme mit Skript; Podcast oft Gespräch ohne vollständiges Skript, erfordert mehr Schnittkompetenz.
Häufige Fragen (FAQ)
Brauche ich eine schalltote Kabine für professionelles Voice-Over? Nein – aber ein ruhiger, wenig halliger Raum ist essenziell. Viele professionelle Voice-Over-Sprecher arbeiten erfolgreich aus dem Homerecording-Setup mit akustisch behandeltem Schlafzimmer oder einem DIY-Aufnahmeschrank (z. B. Kleiderschrank mit Jacken rundherum). Wichtig ist, dass keine hörbaren Reflexionen im Signal sind.
Wie laut soll ich sprechen? Natürlich und variiert – nicht monoton und nicht durchgehend laut. Die Lautstärke-Kontrolle übernimmt der Kompressor in der Post-Produktion. Wichtig: Vermeiden, dass Peaks über -6 dBFS gehen, damit kein Clipping entsteht.
Verwandte Einträge
- Mikrofon-Typen – Welche Mikrofone für Voice-Over geeignet sind
- Raumakustik – Raumoptimierung für professionelle Sprachaufnahmen
- Noise-Reduction – Unerwünschte Geräusche in der Post-Produktion entfernen
Weiterführend
- Tomlinson, Douglas (1985): Voice Acting. Allworth Press.
- Thomas, Harlan (2013): The Art of Voice Acting. 5. Aufl., Focal Press.
- EBU (2020): EBU R128 – Loudness Normalisation and Permitted Maximum Level of Audio Signals. https://tech.ebu.ch/docs/r/r128.pdf
