← Zurück zu Film & Mediendesign
Untertitel (Subtitles) und Captions sind textbasierte Anzeigeelemente, die synchron zum Bildmaterial Gesprochenes, Geräusche oder Kontext wiedergeben – in verschiedenen technischen Formaten für unterschiedliche Plattformen und Vertriebswege standardisiert.

Rubrik: Film & Mediendesign · Unterrubrik: Postproduktion · Niveau: Fortgeschritten Synonyme / Auch bekannt als: Subtitles, Captions, Closed Captions (CC), SDH-Untertitel, UT


Was sind Untertitel und Captions?

Im internationalen Sprachgebrauch bezeichnet:

  • Subtitles: Fremdsprachen-Übersetzungen des Gesprochenen (für Zuschauer, die die Originalsprache nicht verstehen)
  • Captions: Vollständige Mitschriften des Dialogtons inkl. Geräuschbeschreibungen, für gehörlose oder schwerhörige Zuschauer (SDH – Subtitles for the Deaf and Hard of Hearing)

In Deutschland werden beide oft unter Untertitel (UT) zusammengefasst. Im Broadcast-Bereich heißen Closed Captions oft auch Videotext-Untertitel (Seite 777 im ARD-Videotext).

Die korrekte Umsetzung von Untertiteln ist nicht nur eine Frage der Barrierefreiheit, sondern auch einer technischen Deliverable-Anforderung: Viele Plattformen akzeptieren Material nur mit korrekt formatierten Untertiteldateien.


Erklärung

SRT – SubRip Text

SRT (SubRip Subtitle Format, .srt) ist das einfachste und weitverbreitetste Untertitelformat. Es ist eine reine Textdatei mit folgendem Aufbau:

``` 1 00:00:02,500 --> 00:00:06,000 Willkommen zur ersten Lektion.

2 00:00:07,100 --> 00:00:10,500 Heute lernen wir die Grundlagen der Postproduktion. ```

Format:

  • Fortlaufende Nummer
  • Zeitcode-Zeile: HH:MM:SS,mmm --> HH:MM:SS,mmm (Komma als Dezimaltrenner!)
  • Textzeilen (1–2 Zeilen empfohlen)
  • Leerzeile als Trennzeichen

SRT unterstützt:

  • Einfache HTML-Tags: <b> (fett), <i> (kursiv), <u> (unterstrichen)
  • Schriftfarbe (nicht überall unterstützt): <font color="#FFFF00">

Stärken: Universell, einfach zu erstellen und zu bearbeiten, von praktisch allen Playern unterstützt.

Schwächen: Keine Positionierungs-Informationen, kein Ruby-Text, keine komplexe Formatierung, ms-Genauigkeit (kein Frame-genaues TC).

WebVTT – Web Video Text Tracks

WebVTT (Web Video Text Tracks, .vtt) ist der moderne Web-Standard für Untertitel, entwickelt vom W3C. Er erweitert SRT um:

  • Positionierung: Exakte Platzierung am Bildschirm (oben, unten, links, rechts, als Prozentwert)
  • Ausrichtung: Links, rechts, zentriert, Justified
  • Metadaten-Cues: Nicht-angezeigte Marker für JavaScript-APIs
  • Ruby Text: Für CJK-Schriften (Japanisch, Chinesisch, Koreanisch)

```webvtt WEBVTT

00:00:02.500 --> 00:00:06.000 align:start line:90% Willkommen zur ersten Lektion.

00:00:07.100 --> 00:00:10.500 Heute lernen wir die Grundlagen der Postproduktion. ```

Beachte: WebVTT verwendet Punkt statt Komma als Dezimaltrenner (im Gegensatz zu SRT).

WebVTT ist der Standard für HTML5-Video-Player (<track>-Element), YouTube, Vimeo und viele Streaming-Plattformen.

TTML – Timed Text Markup Language

TTML (Timed Text Markup Language, W3C-Standard, .ttml oder .xml) ist ein XML-basiertes Untertitelformat, das umfangreiche Stilisierungsmöglichkeiten bietet:

  • Schriftgröße, -art, -farbe
  • Hintergrundfarbe des Textbereichs
  • Positionierung mit Prozentwerten oder Pixel
  • Regionsdefinitionen (feste Bereiche auf dem Bildschirm)
  • Zeitcode mit frame-genauer Auflösung

``xml <tt xml:lang="de" xmlns="http://www.w3.org/ns/ttml"> <body> <div> <p begin="00:00:02:12" end="00:00:06:00"> Willkommen zur ersten Lektion. </p> </div> </body> </tt> ``

TTML ist die Basis für viele plattformspezifische Profile:

  • IMSC1 (TTML): W3C-Interoperabilitätsprofil für Internet-Verteilung
  • SMPTE-TT (SMPTE ST 2052): TTML-Profil für Broadcast/Mastering
  • Netflix NFLX-TT: Netflix-spezifisches TTML-Profil

Netflix Timed Text (NFLX-TT)

Netflix Timed Text (NFLX-TT) ist das proprietäre Untertitelformat von Netflix, basierend auf TTML/IMSC1. Besonderheiten:

  • Frame-genaue Timecodes
  • Vorgeschriebene Positionierung (untere Region, obere Region für gebärdensprachliche Einblendungen)
  • Netflix-spezifische Zeichenebene (character count, line count constraints)
  • Pflichtangaben: Sprach-Tag, Genre (SDH oder non-SDH)
  • Erstellung via Netflix-zertifizierter Tools (EZTitles, Cavena Systems, ITT Tools)

Alle Untertitel für Netflix müssen als NFLX-TT geliefert werden. SRT-Dateien werden nur in Ausnahmefällen als Interim-Format akzeptiert.

Offene vs. eingebrannte Untertitel

Offene Untertitel (Open Captions / Burned-In / Hardcoded): Der Text ist direkt ins Videobild eingebrannt (wie bei alten VHS-Tapes). Nicht abschaltbar.

  • Verwendung: Festivalfilme (wenn Kinoserver keine Soft-UT-Unterstützung hat), YouTube (freiwillig), Instagram Reels
  • Werkzeuge: DaVinci Resolve (Text+-Effekt, Unicode-fähig), Adobe Premiere Pro (Captions-Workflow), Subtitle Edit

Geschlossene Untertitel (Closed Captions / Soft Subtitles): Der Untertiteltext liegt als separate Datei oder Datenstrom vor und kann vom Zuschauer an- oder abgeschaltet werden.

  • Verwendung: Alle modernen Streaming-Plattformen, Blu-ray, Digital-Cinema (separate CPL-Komposition)
  • Vorteil: Pro Sprache eine Untertiteldatei; kein Re-Encoding nötig
  • Nachteil: Technisch aufwändiger; Style nicht immer vollständig erhalten

Gemischte Variante (Burned-In bei Teilen): In manchen Produktionen werden fremdsprachige Originaltext-Einblendungen (z. B. ein Brief auf Arabisch im Film) in die Hauptversion eingebrannt, während die Hauptuntertitel als Soft-UT geliefert werden.

Broadcast-Format: EBU STL und Teletext

Für deutsche Broadcast-Sender ist EBU STL (.stl, EBU Tech 3264) relevant – ein binäres Format für Untertitel im professionellen Broadcast-Umfeld. Es enthält:

  • Codeseiten (verschiedene Zeichensätze)
  • Zeitcode-Referenz (SMPTE 25 fps)
  • Metadaten (Titel, Ersteller, Datum)

Teletext (Seite 777) ist die klassische ARD/ZDF-Closed-Caption-Technologie für Live-Untertitel und wird im DVB-Datenstrom als EBU-Teletext übertragen.


Beispiele

  1. Netflix Original: NFLX-TT-Dateien in 28 Sprachen werden per IMF-Paket zusammen mit Bild und Ton ausgeliefert; Netflix-QC prüft Zeichenzahl pro Zeile, Lesezeit und Formatkonformität.
  2. YouTube-Tutorial: SRT-Datei wird per YouTube-Upload hochgeladen; YouTube nutzt sie für automatische CC, kann auch manuell editiert werden.
  3. Kurzfilm für Festival: Englische SDH-Untertitel als offene Captions ins Bild eingebrannt (weißer Text mit schwarzem Schlagschatten, untere Bildmitte), da das Festivalkino keine Untertitel-CPL-Komposition unterstützt.
  4. Fernsehspiel für ZDF: EBU STL mit 25 fps SMPTE TC, an Tonfall und Lesegeschwindigkeit angepasste Textkopien, als Datei zusammen mit dem MXF-Master ausgeliefert.
  5. Instagram Reel: Captions werden mit Kapitel 3 in DaVinci Resolve als eingebrannte animierte Untertitel erstellt (Wort-für-Wort-Highlighting), Export als MP4 mit eingebranntem Text.

In der Praxis

Untertitel-Software

  • Subtitle Edit (Open Source, Windows): vollständig, SRT/WebVTT/TTML, Timing-Anpassung, OCR
  • EZTitles (Windows): Profi-Tool für Broadcast und Netflix, NFLX-TT zertifiziert
  • Aegisub (Open Source): vor allem für Anime-Fansubs; ASS-Format
  • DaVinci Resolve (integriert): Captions-Workflow direkt im NLE, SRT/WebVTT Export
  • Adobe Premiere Pro: Captions-Panel für SRT/WebVTT/Burn-In

Qualitätsstandards für Untertitel

Nach EBU Tech 3264 und allgemeinen Best Practices:

  • Max. 42 Zeichen pro Zeile (Broadcast), max. 37 Zeichen (SDH)
  • Max. 2 Zeilen pro Einblendung
  • Mindestanzeigedauer: 1 Sekunde
  • Minimaler Abstand zwischen Einblendungen: 2–4 Frames
  • Leserate: max. 17 Zeichen/Sekunde (SDH), 20 Zeichen/Sekunde (regulär)

Vergleich & Abgrenzung

FormatStandardFrame-genauPositionierungTypische Plattform
SRTDefactonein (ms)neinYouTube, Web
WebVTTW3Cnein (ms)jaHTML5, Streaming
TTML/IMSC1W3CjajaStreaming, IMF
NFLX-TTNetflixjajaNetflix
EBU STLEBUjabegrenztTV-Broadcast
Burn-Inn/a (im Bild)Festival, Social

Häufige Fragen (FAQ)

Kann ich SRT-Dateien für Netflix verwenden? Nein. Netflix erfordert NFLX-TT (TTML-basiert). SRT-Dateien sind nur in frühen Entwicklungsstadien oder für Quick-Review-Zwecke akzeptabel, nicht für die offizielle Abgabe.

Was ist der Unterschied zwischen SDH und normalen Untertiteln? SDH (Subtitles for the Deaf and Hard of Hearing) enthält neben dem gesprochenen Wort auch Beschreibungen von Geräuschen und Musik (z. B. "[Türklingeln]", "[dramatische Musik]", "[Applaus]") und kennzeichnet Sprecher, wenn nicht aus dem Bild erkennbar. SDH richtet sich primär an gehörlose und schwerhörige Zuschauer; reguläre Untertitel (Übersetzungsuntertitel) enthalten solche Geräuschbeschreibungen nicht.


Verwandte Einträge


Weiterführend

  • EBU: EBU Tech 3264 – Subtitling in European Broadcasting. EBU, 2002 (rev. 2017).
  • W3C: Timed Text Markup Language 2 (TTML2). W3C Recommendation, 2018.
  • Netflix Partner Help Center: Timed Text Style Guide. Netflix, 2024.
  • Ivarsson, Jan; Carroll, Mary: Subtitling. TransEdit, 1998.
← Zurück zu Film & Mediendesign
Infotag · 13. Mai · 15:00 Uhr · Vor Ort

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.

Ein halber Nachmittag, der dir drei Jahre Klarheit bringen kann. Kostenlos, unverbindlich, ehrlich.

  • Rundgang durch Studios, Schnitträume und Tonstudio
  • Echte Absolventenfilme sehen
  • 1:1-Beratung zu Bewerbung & BAföG
  • Studierende direkt fragen
  • Kaffee, kein Sales-Pitch
  • Auch online möglich

Platz beim Infotag reservieren

Dauert 30 Sekunden. Bestätigung per E-Mail.
100 % kostenlos · keine Verpflichtung · jederzeit absagbar
Untertitel und Captions — Wiki | Lazi Akademie Esslingen