Untertitel (Subtitles) und Captions sind textbasierte Anzeigeelemente, die synchron zum Bildmaterial Gesprochenes, Geräusche oder Kontext wiedergeben – in verschiedenen technischen Formaten für unterschiedliche Plattformen und Vertriebswege standardisiert.
Rubrik: Film & Mediendesign · Unterrubrik: Postproduktion · Niveau: Fortgeschritten Synonyme / Auch bekannt als: Subtitles, Captions, Closed Captions (CC), SDH-Untertitel, UT
Was sind Untertitel und Captions?
Im internationalen Sprachgebrauch bezeichnet:
- Subtitles: Fremdsprachen-Übersetzungen des Gesprochenen (für Zuschauer, die die Originalsprache nicht verstehen)
- Captions: Vollständige Mitschriften des Dialogtons inkl. Geräuschbeschreibungen, für gehörlose oder schwerhörige Zuschauer (SDH – Subtitles for the Deaf and Hard of Hearing)
In Deutschland werden beide oft unter Untertitel (UT) zusammengefasst. Im Broadcast-Bereich heißen Closed Captions oft auch Videotext-Untertitel (Seite 777 im ARD-Videotext).
Die korrekte Umsetzung von Untertiteln ist nicht nur eine Frage der Barrierefreiheit, sondern auch einer technischen Deliverable-Anforderung: Viele Plattformen akzeptieren Material nur mit korrekt formatierten Untertiteldateien.
Erklärung
SRT – SubRip Text
SRT (SubRip Subtitle Format, .srt) ist das einfachste und weitverbreitetste Untertitelformat. Es ist eine reine Textdatei mit folgendem Aufbau:
``` 1 00:00:02,500 --> 00:00:06,000 Willkommen zur ersten Lektion.
2 00:00:07,100 --> 00:00:10,500 Heute lernen wir die Grundlagen der Postproduktion. ```
Format:
- Fortlaufende Nummer
- Zeitcode-Zeile:
HH:MM:SS,mmm --> HH:MM:SS,mmm(Komma als Dezimaltrenner!) - Textzeilen (1–2 Zeilen empfohlen)
- Leerzeile als Trennzeichen
SRT unterstützt:
- Einfache HTML-Tags:
<b>(fett),<i>(kursiv),<u>(unterstrichen) - Schriftfarbe (nicht überall unterstützt):
<font color="#FFFF00">
Stärken: Universell, einfach zu erstellen und zu bearbeiten, von praktisch allen Playern unterstützt.
Schwächen: Keine Positionierungs-Informationen, kein Ruby-Text, keine komplexe Formatierung, ms-Genauigkeit (kein Frame-genaues TC).
WebVTT – Web Video Text Tracks
WebVTT (Web Video Text Tracks, .vtt) ist der moderne Web-Standard für Untertitel, entwickelt vom W3C. Er erweitert SRT um:
- Positionierung: Exakte Platzierung am Bildschirm (oben, unten, links, rechts, als Prozentwert)
- Ausrichtung: Links, rechts, zentriert, Justified
- Metadaten-Cues: Nicht-angezeigte Marker für JavaScript-APIs
- Ruby Text: Für CJK-Schriften (Japanisch, Chinesisch, Koreanisch)
```webvtt WEBVTT
00:00:02.500 --> 00:00:06.000 align:start line:90% Willkommen zur ersten Lektion.
00:00:07.100 --> 00:00:10.500 Heute lernen wir die Grundlagen der Postproduktion. ```
Beachte: WebVTT verwendet Punkt statt Komma als Dezimaltrenner (im Gegensatz zu SRT).
WebVTT ist der Standard für HTML5-Video-Player (<track>-Element), YouTube, Vimeo und viele Streaming-Plattformen.
TTML – Timed Text Markup Language
TTML (Timed Text Markup Language, W3C-Standard, .ttml oder .xml) ist ein XML-basiertes Untertitelformat, das umfangreiche Stilisierungsmöglichkeiten bietet:
- Schriftgröße, -art, -farbe
- Hintergrundfarbe des Textbereichs
- Positionierung mit Prozentwerten oder Pixel
- Regionsdefinitionen (feste Bereiche auf dem Bildschirm)
- Zeitcode mit frame-genauer Auflösung
``xml <tt xml:lang="de" xmlns="http://www.w3.org/ns/ttml"> <body> <div> <p begin="00:00:02:12" end="00:00:06:00"> Willkommen zur ersten Lektion. </p> </div> </body> </tt> ``
TTML ist die Basis für viele plattformspezifische Profile:
- IMSC1 (TTML): W3C-Interoperabilitätsprofil für Internet-Verteilung
- SMPTE-TT (SMPTE ST 2052): TTML-Profil für Broadcast/Mastering
- Netflix NFLX-TT: Netflix-spezifisches TTML-Profil
Netflix Timed Text (NFLX-TT)
Netflix Timed Text (NFLX-TT) ist das proprietäre Untertitelformat von Netflix, basierend auf TTML/IMSC1. Besonderheiten:
- Frame-genaue Timecodes
- Vorgeschriebene Positionierung (untere Region, obere Region für gebärdensprachliche Einblendungen)
- Netflix-spezifische Zeichenebene (character count, line count constraints)
- Pflichtangaben: Sprach-Tag, Genre (SDH oder non-SDH)
- Erstellung via Netflix-zertifizierter Tools (EZTitles, Cavena Systems, ITT Tools)
Alle Untertitel für Netflix müssen als NFLX-TT geliefert werden. SRT-Dateien werden nur in Ausnahmefällen als Interim-Format akzeptiert.
Offene vs. eingebrannte Untertitel
Offene Untertitel (Open Captions / Burned-In / Hardcoded): Der Text ist direkt ins Videobild eingebrannt (wie bei alten VHS-Tapes). Nicht abschaltbar.
- Verwendung: Festivalfilme (wenn Kinoserver keine Soft-UT-Unterstützung hat), YouTube (freiwillig), Instagram Reels
- Werkzeuge: DaVinci Resolve (Text+-Effekt, Unicode-fähig), Adobe Premiere Pro (Captions-Workflow), Subtitle Edit
Geschlossene Untertitel (Closed Captions / Soft Subtitles): Der Untertiteltext liegt als separate Datei oder Datenstrom vor und kann vom Zuschauer an- oder abgeschaltet werden.
- Verwendung: Alle modernen Streaming-Plattformen, Blu-ray, Digital-Cinema (separate CPL-Komposition)
- Vorteil: Pro Sprache eine Untertiteldatei; kein Re-Encoding nötig
- Nachteil: Technisch aufwändiger; Style nicht immer vollständig erhalten
Gemischte Variante (Burned-In bei Teilen): In manchen Produktionen werden fremdsprachige Originaltext-Einblendungen (z. B. ein Brief auf Arabisch im Film) in die Hauptversion eingebrannt, während die Hauptuntertitel als Soft-UT geliefert werden.
Broadcast-Format: EBU STL und Teletext
Für deutsche Broadcast-Sender ist EBU STL (.stl, EBU Tech 3264) relevant – ein binäres Format für Untertitel im professionellen Broadcast-Umfeld. Es enthält:
- Codeseiten (verschiedene Zeichensätze)
- Zeitcode-Referenz (SMPTE 25 fps)
- Metadaten (Titel, Ersteller, Datum)
Teletext (Seite 777) ist die klassische ARD/ZDF-Closed-Caption-Technologie für Live-Untertitel und wird im DVB-Datenstrom als EBU-Teletext übertragen.
Beispiele
- Netflix Original: NFLX-TT-Dateien in 28 Sprachen werden per IMF-Paket zusammen mit Bild und Ton ausgeliefert; Netflix-QC prüft Zeichenzahl pro Zeile, Lesezeit und Formatkonformität.
- YouTube-Tutorial: SRT-Datei wird per YouTube-Upload hochgeladen; YouTube nutzt sie für automatische CC, kann auch manuell editiert werden.
- Kurzfilm für Festival: Englische SDH-Untertitel als offene Captions ins Bild eingebrannt (weißer Text mit schwarzem Schlagschatten, untere Bildmitte), da das Festivalkino keine Untertitel-CPL-Komposition unterstützt.
- Fernsehspiel für ZDF: EBU STL mit 25 fps SMPTE TC, an Tonfall und Lesegeschwindigkeit angepasste Textkopien, als Datei zusammen mit dem MXF-Master ausgeliefert.
- Instagram Reel: Captions werden mit Kapitel 3 in DaVinci Resolve als eingebrannte animierte Untertitel erstellt (Wort-für-Wort-Highlighting), Export als MP4 mit eingebranntem Text.
In der Praxis
Untertitel-Software
- Subtitle Edit (Open Source, Windows): vollständig, SRT/WebVTT/TTML, Timing-Anpassung, OCR
- EZTitles (Windows): Profi-Tool für Broadcast und Netflix, NFLX-TT zertifiziert
- Aegisub (Open Source): vor allem für Anime-Fansubs; ASS-Format
- DaVinci Resolve (integriert): Captions-Workflow direkt im NLE, SRT/WebVTT Export
- Adobe Premiere Pro: Captions-Panel für SRT/WebVTT/Burn-In
Qualitätsstandards für Untertitel
Nach EBU Tech 3264 und allgemeinen Best Practices:
- Max. 42 Zeichen pro Zeile (Broadcast), max. 37 Zeichen (SDH)
- Max. 2 Zeilen pro Einblendung
- Mindestanzeigedauer: 1 Sekunde
- Minimaler Abstand zwischen Einblendungen: 2–4 Frames
- Leserate: max. 17 Zeichen/Sekunde (SDH), 20 Zeichen/Sekunde (regulär)
Vergleich & Abgrenzung
| Format | Standard | Frame-genau | Positionierung | Typische Plattform |
|---|---|---|---|---|
| SRT | Defacto | nein (ms) | nein | YouTube, Web |
| WebVTT | W3C | nein (ms) | ja | HTML5, Streaming |
| TTML/IMSC1 | W3C | ja | ja | Streaming, IMF |
| NFLX-TT | Netflix | ja | ja | Netflix |
| EBU STL | EBU | ja | begrenzt | TV-Broadcast |
| Burn-In | – | – | n/a (im Bild) | Festival, Social |
Häufige Fragen (FAQ)
Kann ich SRT-Dateien für Netflix verwenden? Nein. Netflix erfordert NFLX-TT (TTML-basiert). SRT-Dateien sind nur in frühen Entwicklungsstadien oder für Quick-Review-Zwecke akzeptabel, nicht für die offizielle Abgabe.
Was ist der Unterschied zwischen SDH und normalen Untertiteln? SDH (Subtitles for the Deaf and Hard of Hearing) enthält neben dem gesprochenen Wort auch Beschreibungen von Geräuschen und Musik (z. B. "[Türklingeln]", "[dramatische Musik]", "[Applaus]") und kennzeichnet Sprecher, wenn nicht aus dem Bild erkennbar. SDH richtet sich primär an gehörlose und schwerhörige Zuschauer; reguläre Untertitel (Übersetzungsuntertitel) enthalten solche Geräuschbeschreibungen nicht.
Verwandte Einträge
Weiterführend
- EBU: EBU Tech 3264 – Subtitling in European Broadcasting. EBU, 2002 (rev. 2017).
- W3C: Timed Text Markup Language 2 (TTML2). W3C Recommendation, 2018.
- Netflix Partner Help Center: Timed Text Style Guide. Netflix, 2024.
- Ivarsson, Jan; Carroll, Mary: Subtitling. TransEdit, 1998.
