Untertitel und Captions: SRT, WebVTT, TTML, NFLX-TT und EBU STL

Untertitel (Subtitles) und Captions sind textbasierte Anzeigeelemente, die synchron zum Bildmaterial Gesprochenes, Geräusche oder Kontext wiedergeben, in verschiedenen technischen Formaten für unterschiedliche Plattformen und Vertriebswege standardisiert.

Rubrik: Film & Mediendesign · Unterrubrik: Postproduktion · Niveau: Fortgeschritten Synonyme / Auch bekannt als: Subtitles, Captions, Closed Captions (CC), SDH-Untertitel, UT

Was sind Untertitel und Captions?

Im internationalen Sprachgebrauch bezeichnet:

Subtitles: Fremdsprachen-Übersetzungen des Gesprochenen (für Zuschauer/innen, die die Originalsprache nicht verstehen)
Captions: Vollständige Mitschriften des Dialogtons inkl. Geräuschbeschreibungen, für gehörlose oder schwerhörige Zuschauer/innen (SDH, Subtitles for the Deaf and Hard of Hearing)

In Deutschland werden beide oft unter Untertitel (UT) zusammengefasst.

Die korrekte Umsetzung von Untertiteln ist nicht nur eine Frage der Barrierefreiheit, sondern auch einer technischen Deliverable-Anforderung: Viele Plattformen akzeptieren Material nur mit korrekt formatierten Untertiteldateien. Details zu den plattformspezifischen Deliverable-Anforderungen finden sich in Deliverables für Plattformen: Netflix, Apple TV+, YouTube, Broadcast.

Erklärung

SRT: SubRip Text

SRT (SubRip Subtitle Format, .srt) ist das einfachste und weitverbreitetste Untertitelformat. Es ist eine reine Textdatei mit folgendem Aufbau:

``` 1 00:00:02,500 --> 00:00:06,000 Willkommen zur ersten Lektion.

2 00:00:07,100 --> 00:00:10,500 Heute lernen wir die Grundlagen der Postproduktion. ```

Format:

Fortlaufende Nummer
Zeitcode-Zeile: HH:MM:SS,mmm --> HH:MM:SS,mmm (Komma als Dezimaltrenner)
Textzeilen (1 bis 2 Zeilen empfohlen)
Leerzeile als Trennzeichen

SRT unterstützt einfache HTML-Tags (<b>, <i>, <u>) und ist universell, von praktisch allen Playern unterstützt. Nachteil: keine Positionierungs-Informationen, keine Frame-genaue TC-Auflösung.

WebVTT: Web Video Text Tracks

WebVTT (Web Video Text Tracks, .vtt, W3C-Standard) ist der moderne Web-Standard für Untertitel. Er erweitert SRT um:

Positionierung: exakte Platzierung am Bildschirm (oben, unten, links, rechts als Prozentwert)
Ausrichtung: links, rechts, zentriert
Metadaten-Cues: nicht angezeigte Marker für JavaScript-APIs
Ruby Text: für CJK-Schriften (Japanisch, Chinesisch, Koreanisch)

Beachte: WebVTT verwendet Punkt statt Komma als Dezimaltrenner (Unterschied zu SRT).

WebVTT ist der Standard für HTML5-Video-Player (<track>-Element), YouTube, Vimeo und viele Streaming-Plattformen.

TTML: Timed Text Markup Language

TTML (Timed Text Markup Language, W3C-Standard, .ttml oder .xml) ist ein XML-basiertes Untertitelformat mit umfangreichen Stilisierungsmöglichkeiten:

Schriftgröße, -art, -farbe
Hintergrundfarbe des Textbereichs
Positionierung mit Prozentwerten oder Pixel
Zeitcode mit framegenauer Auflösung

TTML ist die Basis für plattformspezifische Profile:

IMSC1 (TTML): W3C-Interoperabilitätsprofil für Internet-Verteilung
SMPTE-TT (SMPTE ST 2052): TTML-Profil für Broadcast/Mastering
Netflix NFLX-TT: Netflix-spezifisches TTML-Profil

Netflix Timed Text (NFLX-TT)

Netflix Timed Text (NFLX-TT) ist das proprietäre Untertitelformat von Netflix, basierend auf TTML/IMSC1. Besonderheiten:

Framegenaue Timecodes
Vorgeschriebene Positionierung (untere Region, obere Region für Gebärdensprach-Einblendungen)
Netflix-spezifische Zeichenbeschränkungen (Zeichen pro Zeile, Leserate)
Pflichtangaben: Sprach-Tag, Genre (SDH oder Non-SDH)
Erstellung via Netflix-zertifizierter Tools: EZTitles, Cavena Systems, ITT Tools

Alle Untertitel für Netflix müssen als NFLX-TT geliefert werden. SRT-Dateien werden nur in Ausnahmefällen als Interim-Format akzeptiert.

EBU STL und Teletext (Broadcast)

Für deutsche Broadcast-Sender ist EBU STL (.stl, EBU Tech 3264) relevant: ein binäres Format für Untertitel im professionellen Broadcast-Umfeld.

Zeichensätze (Codeseiten)
Timecode-Referenz (SMPTE 25 fps)
Metadaten (Titel, Ersteller, Datum)

Teletext (Seite 777) ist die klassische ARD/ZDF-Closed-Caption-Technologie für Live-Untertitel, übertragen im DVB-Datenstrom als EBU-Teletext.

Offene vs. geschlossene Untertitel

Offene Untertitel (Open Captions / Burned-In / Hardcoded): Der Text ist direkt ins Videobild eingebrannt. Nicht abschaltbar.

Verwendung: Festivalfilme, YouTube (freiwillig), Instagram Reels
Werkzeuge: DaVinci Resolve (Text+-Effekt), Premiere Pro (Captions-Workflow), Subtitle Edit

Geschlossene Untertitel (Closed Captions / Soft Subtitles): Der Untertiteltext liegt als separate Datei oder Datenstrom vor und kann an- oder abgeschaltet werden.

Verwendung: alle modernen Streaming-Plattformen, Blu-ray, Digital Cinema (separate CPL-Komposition in IMF)
Vorteil: Pro Sprache eine Untertiteldatei; kein Re-Encoding nötig

Vergleich der Formate

Format	Standard	Frame-genau	Positionierung	Typische Plattform
SRT	De-facto	nein (ms)	nein	YouTube, Web
WebVTT	W3C	nein (ms)	ja	HTML5, Streaming
TTML/IMSC1	W3C	ja	ja	Streaming, IMF
NFLX-TT	Netflix	ja	ja	Netflix
EBU STL	EBU	ja	begrenzt	TV-Broadcast
Burn-In	n/a	n/a	im Bild	Festival, Social

Beispiele

Netflix Original: NFLX-TT-Dateien in 28 Sprachen werden per IMF-Paket zusammen mit Bild und Ton ausgeliefert; Netflix-QC prüft Zeichenzahl pro Zeile, Lesezeit und Formatkonformität.
YouTube-Tutorial: SRT-Datei wird per YouTube-Upload hochgeladen; YouTube nutzt sie für automatische CC und kann manuell editiert werden.
Kurzfilm für Festival: Englische SDH-Untertitel als offene Captions ins Bild eingebrannt (weißer Text mit schwarzem Schlagschatten, untere Bildmitte), da das Festivalkino keine Soft-UT-Komposition unterstützt.
Fernsehspiel für ZDF: EBU STL mit 25 fps SMPTE TC, Textanpassung an Lesegeschwindigkeit, als Datei zusammen mit dem MXF-Master ausgeliefert.
Instagram Reel: Captions werden in DaVinci Resolve 21 als eingebrannte animierte Untertitel erstellt (Wort-für-Wort-Highlighting), Export als MP4 mit eingebranntem Text.

In der Praxis

Untertitel-Software

Subtitle Edit (Open Source, Windows): SRT/WebVTT/TTML, Timing-Anpassung, OCR
EZTitles (Windows): Profi-Tool für Broadcast und Netflix, NFLX-TT-zertifiziert
DaVinci Resolve 21 (integriert): Captions-Workflow direkt im NLE, SRT/WebVTT-Export
Adobe Premiere (Version 26.3, 2026): Captions-Panel für SRT/WebVTT/Burn-In

Qualitätsstandards

Nach EBU Tech 3264 und allgemeinen Best Practices:

Max. 42 Zeichen pro Zeile (Broadcast), max. 37 Zeichen (SDH)
Max. 2 Zeilen pro Einblendung
Mindestanzeigedauer: 1 Sekunde
Minimaler Abstand zwischen Einblendungen: 2 bis 4 Frames
Leserate: max. 17 Zeichen/Sekunde (SDH), 20 Zeichen/Sekunde (regulär)

Häufige Fragen (FAQ)

Kann ich SRT-Dateien für Netflix verwenden? Nein. Netflix erfordert NFLX-TT (TTML-basiert). SRT-Dateien sind nur in frühen Entwicklungsstadien oder für Quick-Review-Zwecke akzeptabel, nicht für die offizielle Abgabe.

Was ist der Unterschied zwischen SDH und normalen Untertiteln? SDH (Subtitles for the Deaf and Hard of Hearing) enthält neben dem gesprochenen Wort auch Beschreibungen von Geräuschen und Musik (z. B. "[Türklingeln]", "[dramatische Musik]") und kennzeichnet Sprecher, wenn nicht aus dem Bild erkennbar. Reguläre Übersetzungsuntertitel enthalten solche Geräuschbeschreibungen nicht.

Weiterführend

EBU: EBU Tech 3264, Subtitling in European Broadcasting. EBU, 2002 (rev. 2017).
W3C: Timed Text Markup Language 2 (TTML2). W3C Recommendation, 2018.
Netflix Partner Help Center: Timed Text Style Guide. Netflix, 2024.
Ivarsson, Jan; Carroll, Mary: Subtitling. TransEdit, 1998.

Was sind Untertitel und Captions?

Erklärung

SRT: SubRip Text

WebVTT: Web Video Text Tracks

TTML: Timed Text Markup Language

Netflix Timed Text (NFLX-TT)

EBU STL und Teletext (Broadcast)

Offene vs. geschlossene Untertitel

Vergleich der Formate

Beispiele

In der Praxis

Untertitel-Software

Qualitätsstandards

Häufige Fragen (FAQ)

Verwandte Einträge

Weiterführend

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.

Platz beim Infotag reservieren

Untertitel und Captions: SRT, WebVTT, TTML, NFLX-TT und EBU STL

Was sind Untertitel und Captions?

Erklärung

SRT: SubRip Text

WebVTT: Web Video Text Tracks

TTML: Timed Text Markup Language

Netflix Timed Text (NFLX-TT)

EBU STL und Teletext (Broadcast)

Offene vs. geschlossene Untertitel

Vergleich der Formate

Beispiele

In der Praxis

Untertitel-Software

Qualitätsstandards

Häufige Fragen (FAQ)

Verwandte Einträge

Weiterführend

Sei am Mittwoch dabei.Bring Eltern oder Freunde mit.

Platz beim Infotag reservieren

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.