Voiceover-Aufnahme

Eine Voiceover-Aufnahme (Voice-Over) ist eine professionelle Sprachaufnahme für Medienproduktionen – von Filmvertonungen und Werbespots bis zu Podcast-Episoden und E-Learning-Kursen.

Rubrik: Audio & Podcast · Unterrubrik: Tontechnik · Niveau: Einsteiger Synonyme / Auch bekannt als: Voice-Over, VO, Sprachaufnahme, Synchronaufnahme, Off-Stimme

Was ist Voiceover?

Ein Voice-Over ist eine gesprochene Narration, die nicht an eine auf dem Bildschirm sichtbare Person gebunden ist – die Stimme kommt „von oben" (über dem Bild), daher der Name. Im professionellen Bereich schließt der Begriff aber alle Arten professioneller Sprachaufnahmen ein: Produktionsvertoning, Hörbücher, Dokumentationen, Lernvideos und Podcasts.

Die Qualität eines Voice-Overs entscheidet oft über die Gesamtwahrnehmung einer Produktion. Eine schlecht aufgenommene Stimme macht den besten visuellen Content unglaubwürdig; eine sauber produzierte Stimme kann selbst einfache Bildstrecken stark aufwerten.

Erklärung

Das Setup: Equipment und Raum

Mikrofon: Für Voice-Over eignen sich sowohl Kondensatormikrofone als auch dynamische Mikrofone. Die Wahl hängt von der Abhörsituation und dem Raumcharakter ab:

Kondensatormikrofon (z. B. Rode NT1, Neumann TLM 103): Sehr detailreich, empfindlich für Raumakustik – nur in behandeltem Raum sinnvoll
Dynamisches Mikrofon (z. B. Shure SM7B, Electro-Voice RE20): Weniger empfindlich für Raumreflexionen, robuster gegen Hintergrundgeräusche

Audio-Interface: Das Mikrofon wird über ein Audio-Interface mit dem Computer verbunden. Für Voice-Over reicht ein einkanaliges Interface (Focusrite Scarlett Solo, Universal Audio Volt 1). Wichtig: Ausreichend Vorverstärker-Gain – besonders das SM7B benötigt viel Gain (ggf. Cloud Lifter als Boost-Preamp).

Raum: Der Raum ist der wichtigste Faktor. Ziel: Kurzer RT60 (0,2–0,4 s), keine Reflexionen von Wänden in das Mikrofon. Praktische Lösungen:

Kleines, möbliertes Zimmer (Schlafzimmer, Ankleide)
Reflexionsfilter (Akustikschirm) hinter dem Mikrofon
Nahfeld-Aufnahme (Mikrofon 15–25 cm entfernt vom Mund)

Pop-Filter: Immer verwenden! Plosive (P, B, T) erzeugen starke Luftstöße, die das Mikrofon überlasten. Ein Pop-Filter im Abstand von 5–10 cm vor dem Mikrofon eliminiert diese Plosive.

Aufnahme-Workflow

1. Skript-Vorbereitung und Timing Professionelle Voice-Over-Sprecher bereiten Skripte vor dem Aufnehmen gründlich vor:

Unbekannte Wörter recherchieren und phonetisch notieren
Satzzeichen als Atempausen nutzen (kein Atemgeräusch mitten im Satz)
Markierungen für Betonung und Rhythmus setzen
Timing: Bei Synchronsprache muss die Sprachdauer dem Originaldialog entsprechen

2. Gain-Setting Vorverstärker so einstellen, dass normale Sprachlautstärke ca. -18 dBFS RMS liefert. Peak nicht über -6 dBFS.

3. Aufnahme

In Takes (Abschnitte) aufnehmen, nicht den gesamten Text in einem Durch
Fehler sofort wiederholen (kurze Pause, dann nochmal der Satz)
Atemgeräusche bewusst kontrollieren: Vor Satzanfängen tief durch die Nase atmen, nicht durch den Mund

4. Schnitt-Session

Fehler-Takes herausschneiden und beste Varianten wählen
Pausen zwischen Sätzen auf konsistentes Timing angleichen

Post-Produktion: Die Bearbeitungskette

Schritt 1: Noise Reduction Als erstes störendes Grundrauschen oder Klimaanlagengeräusche entfernen (iZotope RX, Audacity).

Schritt 2: High-Pass-Filter HPF bei 80–100 Hz – entfernt Trittschall, Raumrumpeln, tieffrequente Interferenzen.

Schritt 3: EQ Korrektur der Klangfarbe:

Cut bei ca. 300–400 Hz falls muffig (schmalband, -2 bis -4 dB)
Boost bei 2–4 kHz für mehr Sprachverständlichkeit (+1 bis +2 dB)

Schritt 4: Kompressor Lautstärke-Dynamik kontrollieren:

Ratio 3:1–4:1
Threshold bei ca. -20 dBFS
Attack 10–20 ms, Release 80–120 ms
Makeup Gain anpassen

Schritt 5: De-Essing Zischlaute (S, Sch, Z) entstehen bei 5–10 kHz und können sehr unangenehm sein. Ein De-Esser ist ein dynamischer EQ oder Kompressor, der nur in diesem Frequenzbereich aktiv wird, wenn die Intensität einen Schwellenwert überschreitet.

Tools: Waves Renaissance DeEsser, FabFilter Pro-DS, iZotope Dialogue De-esser, Cha-Ching-Effekt (DAW-interner De-Esser in Logic Pro).

Schritt 6: Atemgeräusche entfernen Manuelle Methode: Atemgeräusche in der DAW-Wellenform identifizieren, Gain Automation auf -∞ oder sehr leise setzen.

Automatisch: iZotope RX Breath Control erkennt und reduziert Atemgeräusche automatisch.

Schritt 7: Lautstärke angleichen Satzübergreifende Lautstärkeunterschiede per Gain-Automation oder Adobe Audition „Auto-Level" angleichen. Ziel: -18 bis -16 dBFS RMS.

Schritt 8: Finale Normalisierung Export auf Broadcast-Standard:

EBU R128 (Europa): -23 LUFS Integrated, -1 dBTP
Podcast: -16 LUFS Integrated, -1 dBTP
YouTube/Streaming: -14 LUFS Integrated, -1 dBTP

Übergabe-Formate

Broadcast (TV, Film): WAV 48 kHz / 24 Bit, EBU R128
Podcast: MP3 128 kbps (Mono) oder WAV 44,1 kHz / 16 Bit
E-Learning/Online: MP3 128–192 kbps oder AAC 128 kbps
ADR (Automated Dialogue Replacement): WAV 48 kHz / 24 Bit, trocken (kein Reverb), mit Timecode-Referenz

Beispiele

Podcast-Intro: Sprecher nimmt seinen Teaser-Text im Homerecording mit SM7B und Focusrite Scarlett auf. Chain: HPF → Kompressor → De-Esser → Normalisierung auf -16 LUFS.
Hörspiel-Produktion: Ein Hörspiel-Sprecher nimmt Szenen in einer schalltoten Kabine auf. Der Tonmeister bearbeitet die Rohdaten: iZotope RX Breath Control, EQ, Kompressor. Danach Raum-Reverb per Send für die entsprechende Szene.
Corporate Video: Eine Sprecherin vertont einen Imagefilm. Skript mit Timecodes, Aufnahme in Takes, Sync-Prüfung gegen Videoschnitt, Lieferung als WAV 48 kHz trocken an den Cutter.
E-Learning-Kurs: Ein Dozent spricht Kursmodule in seinem Homerecording ein. Auphonic normalisiert automatisch auf EBU R128 – zeitsparend und professionell.
Rundfunk-Feature: Für einen Radiobeitrag werden Interviewszenen mit O-Tönen nachbearbeitet. Alle Spuren auf -23 LUFS (EBU R128) normalisiert und als BWF geliefert.

In der Praxis

Der häufigste Fehler beim Voice-Over: Zu viel Abstand zum Mikrofon. Je weiter weg, desto mehr Raumanteil nimmt das Mikrofon auf. 15–25 cm Abstand ist für die meisten Kondensatormikrofone optimal; beim SM7B 5–15 cm.

Nähe-Effekt: Richtmikrofone klingen bei sehr geringem Abstand bassreicher – das ist der Nähe-Effekt (Proximity Effect). Das kann warm klingen, wird aber schnell muffig. HPF oder leichter Low-Shelf-Cut korrigiert das.

Vergleich & Abgrenzung

Voice-Over vs. ADR (Automated Dialogue Replacement): ADR ist die Nachsynchronisation von Dialog aus einem Film – die Lippen-Synchronität mit dem Originalbild ist kritisch. Voice-Over hat diesen Constraint nicht (außer bei Synchronsprache).

Voice-Over vs. Podcast: Technisch sehr ähnlich. Der Hauptunterschied: Voice-Over ist meist Einzel-Aufnahme mit Skript; Podcast oft Gespräch ohne vollständiges Skript, erfordert mehr Schnittkompetenz.

Häufige Fragen (FAQ)

Brauche ich eine schalltote Kabine für professionelles Voice-Over? Nein – aber ein ruhiger, wenig halliger Raum ist essenziell. Viele professionelle Voice-Over-Sprecher arbeiten erfolgreich aus dem Homerecording-Setup mit akustisch behandeltem Schlafzimmer oder einem DIY-Aufnahmeschrank (z. B. Kleiderschrank mit Jacken rundherum). Wichtig ist, dass keine hörbaren Reflexionen im Signal sind.

Wie laut soll ich sprechen? Natürlich und variiert – nicht monoton und nicht durchgehend laut. Die Lautstärke-Kontrolle übernimmt der Kompressor in der Post-Produktion. Wichtig: Vermeiden, dass Peaks über -6 dBFS gehen, damit kein Clipping entsteht.

Weiterführend

Tomlinson, Douglas (1985): Voice Acting. Allworth Press.
Thomas, Harlan (2013): The Art of Voice Acting. 5. Aufl., Focal Press.
EBU (2020): EBU R128 – Loudness Normalisation and Permitted Maximum Level of Audio Signals. https://tech.ebu.ch/docs/r/r128.pdf

Was ist Voiceover?

Erklärung

Das Setup: Equipment und Raum

Aufnahme-Workflow

Post-Produktion: Die Bearbeitungskette

Übergabe-Formate

Beispiele

In der Praxis

Vergleich & Abgrenzung

Häufige Fragen (FAQ)

Verwandte Einträge

Weiterführend

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.

Platz beim Infotag reservieren

Voiceover-Aufnahme

Was ist Voiceover?

Erklärung

Das Setup: Equipment und Raum

Aufnahme-Workflow

Post-Produktion: Die Bearbeitungskette

Übergabe-Formate

Beispiele

In der Praxis

Vergleich & Abgrenzung

Häufige Fragen (FAQ)

Verwandte Einträge

Weiterführend

Sei am Mittwoch dabei.Bring Eltern oder Freunde mit.

Platz beim Infotag reservieren

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.