Speech-to-Text / Captions in Adobe Premiere: KI-Untertitelgenerierung

Speech-to-Text (Sprache in Text) ist Adobe Premieres KI-gestützte Funktion zur automatischen Transkription von Audiospuren und zur daraus abgeleiteten Generierung zeitcodierter Untertitel (Captions), die direkt in der Timeline bearbeitet und gestaltet werden können, in Version 26.3 ergänzt um Single-Word-Captions für Social-Media-Formate.

Rubrik: Software & Tools · Unterrubrik: Adobe Premiere Pro · Niveau: Einsteiger Synonyme / Auch bekannt als: Sprache in Text, Auto-Captions, automatische Untertitel; Menüpfad: Fenster > Text (dann Tab „Transkription"); Workspace: Captions und Grafiken; Shortcut: kein Standard-Shortcut

Was ist Speech-to-Text?

Speech-to-Text ist seit Adobe Premiere Pro Version 15.4 (2021) integriert und nutzt das Adobe Sensei KI-Framework zur automatischen Spracherkennung. Die Funktion transkribiert den gesprochenen Inhalt einer Sequenz in Text, der im Textpanel als durchsuchbares Skript erscheint. Aus dieser Transkription können mit einem Klick Captions (Untertitel) als Grafikelemente in die Sequence-Timeline eingefügt werden. Captions werden auf einer eigenen Caption-Spur angezeigt und können als SRT-, SCC- oder MCC-Dateien exportiert werden. Seit 2023 unterstützt die Funktion über 20 Sprachen, darunter Deutsch.

Neu in Adobe Premiere 26.3 (Juni 2026): Single-Word-Captions. Captions können jetzt direkt als Wort-für-Wort-Untertitel generiert werden, bei denen jedes Wort einzeln und synchron zur Audiopur erscheint. Dieses Format ist für Social-Media-Plattformen (Reels, Shorts, TikTok) typisch und bisher nur manuell oder über Drittanbieter-Tools möglich gewesen. Adobe Premiere synchronisiert dabei jedes einzelne Wort automatisch mit der Audiospur.

Erklärung

Aktivierung und Transkription starten

Den Workspace Captions und Grafiken in der oberen Leiste auswählen oder Fenster > Text öffnen.
Im Textpanel den Tab Transkription wählen.
Auf Sequenz transkribieren klicken. Es öffnet sich ein Dialog mit folgenden Optionen:

- Sprache: Zielsprache der Spracherkennung (z. B. Deutsch, Englisch, Spanisch). - Audiospur: Auswahl, welche Tonspur transkribiert werden soll. - Sprecher automatisch identifizieren: Bei mehreren Sprechern trennt die KI die Redebeiträge und kennzeichnet sie mit Sprecher-Labels. - Stummgeschaltete Spuren ignorieren: Tonsegmente auf stummgeschalteten Tracks werden ausgelassen.

Die Transkription beginnt und läuft je nach Sequenzlänge zwischen wenigen Sekunden und mehreren Minuten (Cloud-basierte Verarbeitung über Adobe-Server).

Transkription bearbeiten

Nach der Transkription erscheint der vollständige Text im Transkriptions-Tab. Einzelne Wörter können direkt angeklickt werden, Premiere springt an die entsprechende Zeitposition im Clip. Fehler (falsch erkannte Wörter) können direkt im Textpanel korrigiert werden. Über die Suchfunktion lassen sich bestimmte Wörter finden und ersetzen. Segmente können markiert und als „stumm" markiert werden, damit sie keine Caption erhalten.

Captions generieren

Über den Button Captions erstellen (oder „Captions aus Transkript") wird aus der Transkription eine Caption-Spur erzeugt. Im erscheinenden Dialog:

Stil: Wahl zwischen „Untertitel" (klassisch, zeilenbasiert) und „Caption-Präsentation" (optisch aufgewertete Textblöcke).
Zeitlicher Rahmen: Maximale Wortanzahl pro Caption-Segment.
Mindestdauer: Wie lange eine Caption mindestens angezeigt wird.
Lücke zwischen Captions: Pause zwischen zwei aufeinanderfolgenden Caption-Segmenten.

Das Ergebnis: Eine Caption-Spur in der Timeline, deren Segmente zeitlich den Wörtern des Transkripts entsprechen.

Captions gestalten

Captions haben ein eigenes Gestaltungsfeld im Bearbeiten-Tab des Essential Graphics Panels:

Schriftart, Größe, Farbe, Hintergrundfarbe (Box), Schatten, Position.
Ein einmal festgelegter Stil kann über Stil duplizieren auf alle Captions einer Spur angewendet werden.
Caption-MOGRTs aus dem Essential Graphics Panel können als Vorlage für aufwendigere Subtitle-Layouts genutzt werden.
Single-Word-Captions (ab 26.3): Beim Klick auf „Captions erstellen" die Option „Einzelnes Wort" auswählen; Premiere erzeugt pro Wort einen eigenen Caption-Block mit automatischer Zeitanpassung.

Export

Captions können auf drei Arten exportiert werden:

In Video eingebrannt (Burned-in): Als Teil des Video-Exports direkt in das Bild gerendert.
Als Sidecar-Datei: SRT, SCC oder MCC werden neben der Videodatei als separate Textdatei exportiert.
In die Tonspur eingebettet: Bei bestimmten MXF-Formaten können Closed Captions eingebettet werden.

Der Exportdialog befindet sich unter Datei > Exportieren > Medien (oder Adobe Media Encoder); dort ist im Reiter „Untertitel" die gewünschte Ausgabemethode wählbar.

Beispiele

YouTube-Untertitel: Eine 10-minütige Interviewdokumentation wird automatisch transkribiert, ca. 15 Fehler manuell im Textpanel korrigiert, dann als SRT-Datei exportiert und auf YouTube hochgeladen.
Branded Captions: Corporate-Video mit einheitlichen Captions im Unternehmens-CI: Schriftart, Farbe und Hintergrund werden einmal festgelegt und als Stil auf alle Caption-Segmente angewendet.
Mehrsprachige Produktion: Eine englischsprachige Sequenz wird transkribiert, die SRT-Datei dann extern übersetzt und als neue Caption-Spur reimportiert.
Sucheditierung: Der Redakteur sucht im Transkript nach dem Wort „Klimawandel", findet alle Stellen im Clip und entscheidet schnell, welche Aussagen er verwenden möchte, ohne die Timeline manuell zu scrubben.
Social-Media-Captions: Reels und TikToks erhalten animierte Wort-für-Wort-Captions über ein Caption-MOGRT, das automatisch mit der Transkription synchronisiert wird.

In der Praxis

Qualität der Quellaudiostrecke entscheidet: Speech-to-Text funktioniert am besten mit klarer, rauschfreier Sprache. Vor der Transkription sollte Essential Sound für Rauschreduzierung und Hallentfernung eingesetzt werden.
Sprecher-Labels nachbenennen: Bei Mehrpersonen-Transkriptionen die Sprecher-Labels von „Sprecher 1" in echte Namen umbenennen, das verbessert die Lesbarkeit im Textpanel erheblich.
Offline-Transkription: Seit Premiere Pro 24.x ist eine eingeschränkte Offline-Transkription für einige Sprachen möglich; für beste Ergebnisse ist jedoch eine Internetverbindung empfohlen.
SRT-Reimport: Übersetzte oder extern korrigierte SRT-Dateien können über Datei > Importieren reimportiert und als neue Caption-Spur in die Timeline gezogen werden.
Speichern nicht vergessen: Transkriptionen werden im Projekt gespeichert, gehen aber bei „Rückgängig" verloren. Regelmäßig speichern.

Vergleich & Abgrenzung

Merkmal	Speech-to-Text (Premiere)	Descript	Rev.ai / externe Tools
Integration	Direkt im NLE	Dedizierte App	Export/Import nötig
Genauigkeit Deutsch	Gut (Adobe Sensei)	Sehr gut	Sehr gut
Kosten	In CC-Abo enthalten	Eigenes Abo	Pro Stunde
Editing via Text	Eingeschränkt	Vollständig	Nein
Caption-Styling	Direkt in Premiere	Begrenzt	Nein

Häufige Fragen (FAQ)

Wie genau ist die Spracherkennung auf Deutsch? Die Genauigkeit liegt bei klarem, akzentfreiem Deutsch bei ca. 85–93 %. Dialekte, Fachvokabular und Eigennamen werden häufig falsch erkannt und müssen manuell korrigiert werden. Adobe verbessert die Modelle regelmäßig mit Premiere-Updates.

Was sind Single-Word-Captions und für wen sind sie sinnvoll? Single-Word-Captions (neu in Premiere 26.3) zeigen jeweils ein Wort zur Zeit, synchron mit der Audiospur. Dieses Format ist auf Social-Media-Plattformen wie TikTok, Instagram Reels und YouTube Shorts weit verbreitet. Es erzeugt eine dynamische visuelle Begleitung zum gesprochenen Wort und erhöht die Aufmerksamkeitsbindung. Die Erstellung erfolgt direkt beim Generieren der Caption-Spur über die Option „Einzelnes Wort".

Kann ich Speech-to-Text für mehrere Sprachen in einer Sequenz nutzen? Nein. Die Transkription ist auf eine Sprache pro Sequenz beschränkt. Für mehrsprachige Inhalte empfiehlt es sich, die Sequenz zu teilen und separate Transkriptionen zu erstellen oder externe Transkriptionsdienste zu nutzen, die Sprachenwechsel erkennen.

Weiterführend

Adobe (2026): Automatische Transkription und Captions in Adobe Premiere. Adobe Help Center, helpx.adobe.com/premiere-pro/using/speech-to-text.html.
Adobe (2026): What's New in Adobe Premiere 26.3. community.adobe.com/announcements-727.
Gruber, Karl: Barrierefreie Videoproduktion: Untertitel, Audiodeskription und mehr. mitp Verlag, 2022.

Was ist Speech-to-Text?

Erklärung

Aktivierung und Transkription starten

Transkription bearbeiten

Captions generieren

Captions gestalten

Export

Beispiele

In der Praxis

Vergleich & Abgrenzung

Häufige Fragen (FAQ)

Verwandte Einträge

Weiterführend

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.

Platz beim Infotag reservieren

Speech-to-Text / Captions in Adobe Premiere: KI-Untertitelgenerierung

Was ist Speech-to-Text?

Erklärung

Aktivierung und Transkription starten

Transkription bearbeiten

Captions generieren

Captions gestalten

Export

Beispiele

In der Praxis

Vergleich & Abgrenzung

Häufige Fragen (FAQ)

Verwandte Einträge

Weiterführend

Sei am Mittwoch dabei.Bring Eltern oder Freunde mit.

Platz beim Infotag reservieren

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.