Eine Voiceover-Aufnahme (Voice-Over) ist eine professionelle Sprachaufnahme für Medienproduktionen – von Filmvertonungen und Werbespots bis zu Podcast-Episoden und E-Learning-Kursen.

Rubrik: Audio & Podcast · Unterrubrik: Tontechnik · Niveau: Einsteiger Synonyme / Auch bekannt als: Voice-Over, VO, Sprachaufnahme, Synchronaufnahme, Off-Stimme


Was ist Voiceover?

Ein Voice-Over ist eine gesprochene Narration, die nicht an eine auf dem Bildschirm sichtbare Person gebunden ist – die Stimme kommt „von oben" (über dem Bild), daher der Name. Im professionellen Bereich schließt der Begriff aber alle Arten professioneller Sprachaufnahmen ein: Produktionsvertoning, Hörbücher, Dokumentationen, Lernvideos und Podcasts.

Die Qualität eines Voice-Overs entscheidet oft über die Gesamtwahrnehmung einer Produktion. Eine schlecht aufgenommene Stimme macht den besten visuellen Content unglaubwürdig; eine sauber produzierte Stimme kann selbst einfache Bildstrecken stark aufwerten.


Erklärung

Das Setup: Equipment und Raum

Mikrofon: Für Voice-Over eignen sich sowohl Kondensatormikrofone als auch dynamische Mikrofone. Die Wahl hängt von der Abhörsituation und dem Raumcharakter ab:

  • Kondensatormikrofon (z. B. Rode NT1, Neumann TLM 103): Sehr detailreich, empfindlich für Raumakustik – nur in behandeltem Raum sinnvoll
  • Dynamisches Mikrofon (z. B. Shure SM7B, Electro-Voice RE20): Weniger empfindlich für Raumreflexionen, robuster gegen Hintergrundgeräusche

Audio-Interface: Das Mikrofon wird über ein Audio-Interface mit dem Computer verbunden. Für Voice-Over reicht ein einkanaliges Interface (Focusrite Scarlett Solo, Universal Audio Volt 1). Wichtig: Ausreichend Vorverstärker-Gain – besonders das SM7B benötigt viel Gain (ggf. Cloud Lifter als Boost-Preamp).

Raum: Der Raum ist der wichtigste Faktor. Ziel: Kurzer RT60 (0,2–0,4 s), keine Reflexionen von Wänden in das Mikrofon. Praktische Lösungen:

  • Kleines, möbliertes Zimmer (Schlafzimmer, Ankleide)
  • Reflexionsfilter (Akustikschirm) hinter dem Mikrofon
  • Nahfeld-Aufnahme (Mikrofon 15–25 cm entfernt vom Mund)

Pop-Filter: Immer verwenden! Plosive (P, B, T) erzeugen starke Luftstöße, die das Mikrofon überlasten. Ein Pop-Filter im Abstand von 5–10 cm vor dem Mikrofon eliminiert diese Plosive.


Aufnahme-Workflow

1. Skript-Vorbereitung und Timing Professionelle Voice-Over-Sprecher bereiten Skripte vor dem Aufnehmen gründlich vor:

  • Unbekannte Wörter recherchieren und phonetisch notieren
  • Satzzeichen als Atempausen nutzen (kein Atemgeräusch mitten im Satz)
  • Markierungen für Betonung und Rhythmus setzen
  • Timing: Bei Synchronsprache muss die Sprachdauer dem Originaldialog entsprechen

2. Gain-Setting Vorverstärker so einstellen, dass normale Sprachlautstärke ca. -18 dBFS RMS liefert. Peak nicht über -6 dBFS.

3. Aufnahme

  • In Takes (Abschnitte) aufnehmen, nicht den gesamten Text in einem Durch
  • Fehler sofort wiederholen (kurze Pause, dann nochmal der Satz)
  • Atemgeräusche bewusst kontrollieren: Vor Satzanfängen tief durch die Nase atmen, nicht durch den Mund

4. Schnitt-Session

  • Fehler-Takes herausschneiden und beste Varianten wählen
  • Pausen zwischen Sätzen auf konsistentes Timing angleichen

Post-Produktion: Die Bearbeitungskette

Schritt 1: Noise Reduction Als erstes störendes Grundrauschen oder Klimaanlagengeräusche entfernen (iZotope RX, Audacity).

Schritt 2: High-Pass-Filter HPF bei 80–100 Hz – entfernt Trittschall, Raumrumpeln, tieffrequente Interferenzen.

Schritt 3: EQ Korrektur der Klangfarbe:

  • Cut bei ca. 300–400 Hz falls muffig (schmalband, -2 bis -4 dB)
  • Boost bei 2–4 kHz für mehr Sprachverständlichkeit (+1 bis +2 dB)

Schritt 4: Kompressor Lautstärke-Dynamik kontrollieren:

  • Ratio 3:1–4:1
  • Threshold bei ca. -20 dBFS
  • Attack 10–20 ms, Release 80–120 ms
  • Makeup Gain anpassen

Schritt 5: De-Essing Zischlaute (S, Sch, Z) entstehen bei 5–10 kHz und können sehr unangenehm sein. Ein De-Esser ist ein dynamischer EQ oder Kompressor, der nur in diesem Frequenzbereich aktiv wird, wenn die Intensität einen Schwellenwert überschreitet.

Tools: Waves Renaissance DeEsser, FabFilter Pro-DS, iZotope Dialogue De-esser, Cha-Ching-Effekt (DAW-interner De-Esser in Logic Pro).

Schritt 6: Atemgeräusche entfernen Manuelle Methode: Atemgeräusche in der DAW-Wellenform identifizieren, Gain Automation auf -∞ oder sehr leise setzen.

Automatisch: iZotope RX Breath Control erkennt und reduziert Atemgeräusche automatisch.

Schritt 7: Lautstärke angleichen Satzübergreifende Lautstärkeunterschiede per Gain-Automation oder Adobe Audition „Auto-Level" angleichen. Ziel: -18 bis -16 dBFS RMS.

Schritt 8: Finale Normalisierung Export auf Broadcast-Standard:

  • EBU R128 (Europa): -23 LUFS Integrated, -1 dBTP
  • Podcast: -16 LUFS Integrated, -1 dBTP
  • YouTube/Streaming: -14 LUFS Integrated, -1 dBTP

Übergabe-Formate

  • Broadcast (TV, Film): WAV 48 kHz / 24 Bit, EBU R128
  • Podcast: MP3 128 kbps (Mono) oder WAV 44,1 kHz / 16 Bit
  • E-Learning/Online: MP3 128–192 kbps oder AAC 128 kbps
  • ADR (Automated Dialogue Replacement): WAV 48 kHz / 24 Bit, trocken (kein Reverb), mit Timecode-Referenz

Beispiele

  1. Podcast-Intro: Sprecher nimmt seinen Teaser-Text im Homerecording mit SM7B und Focusrite Scarlett auf. Chain: HPF → Kompressor → De-Esser → Normalisierung auf -16 LUFS.
  2. Hörspiel-Produktion: Ein Hörspiel-Sprecher nimmt Szenen in einer schalltoten Kabine auf. Der Tonmeister bearbeitet die Rohdaten: iZotope RX Breath Control, EQ, Kompressor. Danach Raum-Reverb per Send für die entsprechende Szene.
  3. Corporate Video: Eine Sprecherin vertont einen Imagefilm. Skript mit Timecodes, Aufnahme in Takes, Sync-Prüfung gegen Videoschnitt, Lieferung als WAV 48 kHz trocken an den Cutter.
  4. E-Learning-Kurs: Ein Dozent spricht Kursmodule in seinem Homerecording ein. Auphonic normalisiert automatisch auf EBU R128 – zeitsparend und professionell.
  5. Rundfunk-Feature: Für einen Radiobeitrag werden Interviewszenen mit O-Tönen nachbearbeitet. Alle Spuren auf -23 LUFS (EBU R128) normalisiert und als BWF geliefert.

In der Praxis

Der häufigste Fehler beim Voice-Over: Zu viel Abstand zum Mikrofon. Je weiter weg, desto mehr Raumanteil nimmt das Mikrofon auf. 15–25 cm Abstand ist für die meisten Kondensatormikrofone optimal; beim SM7B 5–15 cm.

Nähe-Effekt: Richtmikrofone klingen bei sehr geringem Abstand bassreicher – das ist der Nähe-Effekt (Proximity Effect). Das kann warm klingen, wird aber schnell muffig. HPF oder leichter Low-Shelf-Cut korrigiert das.


Vergleich & Abgrenzung

Voice-Over vs. ADR (Automated Dialogue Replacement): ADR ist die Nachsynchronisation von Dialog aus einem Film – die Lippen-Synchronität mit dem Originalbild ist kritisch. Voice-Over hat diesen Constraint nicht (außer bei Synchronsprache).

Voice-Over vs. Podcast: Technisch sehr ähnlich. Der Hauptunterschied: Voice-Over ist meist Einzel-Aufnahme mit Skript; Podcast oft Gespräch ohne vollständiges Skript, erfordert mehr Schnittkompetenz.


Häufige Fragen (FAQ)

Brauche ich eine schalltote Kabine für professionelles Voice-Over? Nein – aber ein ruhiger, wenig halliger Raum ist essenziell. Viele professionelle Voice-Over-Sprecher arbeiten erfolgreich aus dem Homerecording-Setup mit akustisch behandeltem Schlafzimmer oder einem DIY-Aufnahmeschrank (z. B. Kleiderschrank mit Jacken rundherum). Wichtig ist, dass keine hörbaren Reflexionen im Signal sind.

Wie laut soll ich sprechen? Natürlich und variiert – nicht monoton und nicht durchgehend laut. Die Lautstärke-Kontrolle übernimmt der Kompressor in der Post-Produktion. Wichtig: Vermeiden, dass Peaks über -6 dBFS gehen, damit kein Clipping entsteht.


Verwandte Einträge

  • Mikrofon-Typen – Welche Mikrofone für Voice-Over geeignet sind
  • Raumakustik – Raumoptimierung für professionelle Sprachaufnahmen
  • Noise-Reduction – Unerwünschte Geräusche in der Post-Produktion entfernen

Weiterführend

  • Tomlinson, Douglas (1985): Voice Acting. Allworth Press.
  • Thomas, Harlan (2013): The Art of Voice Acting. 5. Aufl., Focal Press.
  • EBU (2020): EBU R128 – Loudness Normalisation and Permitted Maximum Level of Audio Signals. https://tech.ebu.ch/docs/r/r128.pdf
Verwandte Einträge
← Zurück zu Audio & Podcast
Infotag · 13. Mai · 15:00 Uhr · Vor Ort

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.

Ein halber Nachmittag, der dir drei Jahre Klarheit bringen kann. Kostenlos, unverbindlich, ehrlich.

  • Rundgang durch Studios, Schnitträume und Tonstudio
  • Echte Absolventenfilme sehen
  • 1:1-Beratung zu Bewerbung & BAföG
  • Studierende direkt fragen
  • Kaffee, Snacks, kein Sales-Pitch
  • Auch online möglich

Platz beim Infotag reservieren

Dauert 30 Sekunden. Bestätigung per E-Mail.
100 % kostenlos · keine Verpflichtung · jederzeit absagbar