← Zurück zu Software & Tools
Speech-to-Text (Sprache in Text) ist Premiere Pros KI-gestützte Funktion zur automatischen Transkription von Audiospuren und zur daraus abgeleiteten Generierung zeitcodierter Untertitel (Captions), die direkt in der Timeline bearbeitet und gestaltet werden können.

Rubrik: Software & Tools · Unterrubrik: Adobe Premiere Pro · Niveau: Einsteiger Synonyme / Auch bekannt als: Sprache in Text, Auto-Captions, automatische Untertitel; Menüpfad: Fenster > Text (dann Tab „Transkription"); Workspace: Captions und Grafiken; Shortcut: kein Standard-Shortcut


Was ist Speech-to-Text?

Speech-to-Text ist seit Adobe Premiere Pro Version 15.4 (2021) integriert und nutzt das Adobe Sensei KI-Framework zur automatischen Spracherkennung. Die Funktion transkribiert den gesprochenen Inhalt einer Sequenz in Text, der im Textpanel als durchsuchbares Skript erscheint. Aus dieser Transkription können mit einem Klick Captions (Untertitel) als Grafikelemente in die Sequence-Timeline eingefügt werden. Captions werden auf einer eigenen Caption-Spur angezeigt und können als SRT-, SCC- oder MCC-Dateien exportiert werden. Seit 2023 unterstützt die Funktion über 20 Sprachen, darunter Deutsch.


Erklärung

Aktivierung und Transkription starten

  1. Den Workspace Captions und Grafiken in der oberen Leiste auswählen oder Fenster > Text öffnen.
  2. Im Textpanel den Tab Transkription wählen.
  3. Auf Sequenz transkribieren klicken. Es öffnet sich ein Dialog mit folgenden Optionen:

- Sprache: Zielsprache der Spracherkennung (z. B. Deutsch, Englisch, Spanisch). - Audiospur: Auswahl, welche Tonspur transkribiert werden soll. - Sprecher automatisch identifizieren: Bei mehreren Sprechern trennt die KI die Redebeiträge und kennzeichnet sie mit Sprecher-Labels. - Stummgeschaltete Spuren ignorieren: Tonsegmente auf stummgeschalteten Tracks werden ausgelassen.

  1. Die Transkription beginnt und läuft je nach Sequenzlänge zwischen wenigen Sekunden und mehreren Minuten (Cloud-basierte Verarbeitung über Adobe-Server).

Transkription bearbeiten

Nach der Transkription erscheint der vollständige Text im Transkriptions-Tab. Einzelne Wörter können direkt angeklickt werden – Premiere springt an die entsprechende Zeitposition im Clip. Fehler (falsch erkannte Wörter) können direkt im Textpanel korrigiert werden. Über die Suchfunktion lassen sich bestimmte Wörter finden und ersetzen. Segmente können markiert und als „stumm" markiert werden, damit sie keine Caption erhalten.

Captions generieren

Über den Button Captions erstellen (oder „Captions aus Transkript") wird aus der Transkription eine Caption-Spur erzeugt. Im erscheinenden Dialog:

  • Stil: Wahl zwischen „Untertitel" (klassisch, zeilenbasiert) und „Caption-Präsentation" (optisch aufgewertete Textblöcke).
  • Zeitlicher Rahmen: Maximale Wortanzahl pro Caption-Segment.
  • Mindestdauer: Wie lange eine Caption mindestens angezeigt wird.
  • Lücke zwischen Captions: Pause zwischen zwei aufeinanderfolgenden Caption-Segmenten.

Das Ergebnis: Eine Caption-Spur in der Timeline, deren Segmente zeitlich den Wörtern des Transkripts entsprechen.

Captions gestalten

Captions haben ein eigenes Gestaltungsfeld im Bearbeiten-Tab des Essential Graphics Panels:

  • Schriftart, Größe, Farbe, Hintergrundfarbe (Box), Schatten, Position.
  • Ein einmal festgelegter Stil kann über Stil duplizieren auf alle Captions einer Spur angewendet werden.
  • Caption-MOGRTs aus dem Essential Graphics Panel können als Vorlage für aufwendigere Subtitle-Layouts genutzt werden.

Export

Captions können auf drei Arten exportiert werden:

  1. In Video eingebrannt (Burned-in): Als Teil des Video-Exports direkt in das Bild gerendert.
  2. Als Sidecar-Datei: SRT, SCC oder MCC werden neben der Videodatei als separate Textdatei exportiert.
  3. In die Tonspur eingebettet: Bei bestimmten MXF-Formaten können Closed Captions eingebettet werden.

Der Exportdialog befindet sich unter Datei > Exportieren > Medien (oder Adobe Media Encoder); dort ist im Reiter „Untertitel" die gewünschte Ausgabemethode wählbar.


Beispiele

  1. YouTube-Untertitel: Eine 10-minütige Interviewdokumentation wird automatisch transkribiert, ca. 15 Fehler manuell im Textpanel korrigiert, dann als SRT-Datei exportiert und auf YouTube hochgeladen.
  2. Branded Captions: Corporate-Video mit einheitlichen Captions im Unternehmens-CI: Schriftart, Farbe und Hintergrund werden einmal festgelegt und als Stil auf alle Caption-Segmente angewendet.
  3. Mehrsprachige Produktion: Eine englischsprachige Sequenz wird transkribiert, die SRT-Datei dann extern übersetzt und als neue Caption-Spur reimportiert.
  4. Sucheditierung: Der Redakteur sucht im Transkript nach dem Wort „Klimawandel", findet alle Stellen im Clip und entscheidet schnell, welche Aussagen er verwenden möchte – ohne die Timeline manuell zu scrubben.
  5. Social-Media-Captions: Reels und TikToks erhalten animierte Wort-für-Wort-Captions über ein Caption-MOGRT, das automatisch mit der Transkription synchronisiert wird.

In der Praxis

  • Qualität der Quellaudiostrecke entscheidet: Speech-to-Text funktioniert am besten mit klarer, rauschfreier Sprache. Vor der Transkription sollte Essential Sound für Rauschreduzierung und Hallentfernung eingesetzt werden.
  • Sprecher-Labels nachbenennen: Bei Mehrpersonen-Transkriptionen die Sprecher-Labels von „Sprecher 1" in echte Namen umbenennen – das verbessert die Lesbarkeit im Textpanel erheblich.
  • Offline-Transkription: Seit Premiere Pro 24.x ist eine eingeschränkte Offline-Transkription für einige Sprachen möglich; für beste Ergebnisse ist jedoch eine Internetverbindung empfohlen.
  • SRT-Reimport: Übersetzte oder extern korrigierte SRT-Dateien können über Datei > Importieren reimportiert und als neue Caption-Spur in die Timeline gezogen werden.
  • Speichern nicht vergessen: Transkriptionen werden im Projekt gespeichert, gehen aber bei „Rückgängig" verloren. Regelmäßig speichern.

Vergleich & Abgrenzung

MerkmalSpeech-to-Text (Premiere)DescriptRev.ai / externe Tools
IntegrationDirekt im NLEDedizierte AppExport/Import nötig
Genauigkeit DeutschGut (Adobe Sensei)Sehr gutSehr gut
KostenIn CC-Abo enthaltenEigenes AboPro Stunde
Editing via TextEingeschränktVollständigNein
Caption-StylingDirekt in PremiereBegrenztNein

Häufige Fragen (FAQ)

Wie genau ist die Spracherkennung auf Deutsch? Die Genauigkeit liegt bei klarem, akzentfreiem Deutsch bei ca. 85–93 %. Dialekte, Fachvokabular und Eigennahmen werden häufig falsch erkannt und müssen manuell korrigiert werden. Adobe verbessert die Modelle regelmäßig mit Premiere-Updates.

Kann ich Speech-to-Text für mehrere Sprachen in einer Sequenz nutzen? Nein. Die Transkription ist auf eine Sprache pro Sequenz beschränkt. Für mehrsprachige Inhalte empfiehlt es sich, die Sequenz zu teilen und separate Transkriptionen zu erstellen oder externe Transkriptionsdienste zu nutzen, die Sprachenwechsel erkennen.


Verwandte Einträge


Weiterführend

  • Adobe Inc.: Premiere Pro Benutzerhandbuch – Automatische Transkription und Captions. (2024)
  • Gruber, Karl: Barrierefreie Videoproduktion: Untertitel, Audiodeskription und mehr. mitp Verlag, 2022.
← Zurück zu Software & Tools
Infotag · 13. Mai · 15:00 Uhr · Vor Ort

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.

Ein halber Nachmittag, der dir drei Jahre Klarheit bringen kann. Kostenlos, unverbindlich, ehrlich.

  • Rundgang durch Studios, Schnitträume und Tonstudio
  • Echte Absolventenfilme sehen
  • 1:1-Beratung zu Bewerbung & BAföG
  • Studierende direkt fragen
  • Kaffee, kein Sales-Pitch
  • Auch online möglich

Platz beim Infotag reservieren

Dauert 30 Sekunden. Bestätigung per E-Mail.
100 % kostenlos · keine Verpflichtung · jederzeit absagbar