IBC2017-Video: Automatische Untertitelung mit Transcriptive
Spracherkennung ist in der Postproduktion aktueller denn je, weil der Social-Media-Bereich nach Untertitelung lechzt und weil Spracherkennung neue Workflows ermöglicht und unterstützt. Transcriptive von Digital Anarchy ist ein Tool hierfür, das einen sehr interessanten, neuen Ansatz verfolgt.
Spracherkennung ist in Verbindung mit automatischer Texterzeugung in der Postproduction wieder zu einem größeren Thema geworden — vielleicht sogar größer als je zuvor. Treibende Kräfte hierfür sind neue Workflows am vorderen Ende der Produktionskette, in der Bearbeitung von großen Materialmengen. Am hinteren Ende ging es in puncto Spracherkennung bisher meist um die oft stiefmütterlich behandelte Archivierung, nun aber werden auch hier insgesamt viel mehr Untertitel gebraucht, besonders bei Social-Media-Videos.
Gewünscht und gesucht sind also Werkzeuge, die den »Speech-to-Text«-Prozess möglichst akkurat, aber auch schnell, automatisiert und einfach abwickeln.
Ein interessantes Werkzeug dafür ist das Plug-In Transcriptive, ein von Digital Anarchy programmiertes Panel für Adobes Premiere Pro.
Transcriptive soll einerseits automatisiertes, intelligentes Transkribieren von Videos ermöglichen und gleichzeitig neue, textbasierte Suchfunktionen innerhalb von Videomaterial eröffnen.
Man kann das Plug-In auch nutzen, um vorhandene Textscripts mit den Videoclips zu synchronisieren, in denen dieser Text gesprochen wird. Das entspricht dann im Grunde der Funktionalität von ScriptSync, wie man sie aus Avid-Produkten kennt.
Das Plug-In schlägt letztlich die Brücke zu einem Cloud-Service: Man wählt im Premiere-Panel aus, was man haben will, dann wird die Sprache extrahiert, hochgeladen, in der Cloud verarbeitet und nach der Verarbeitung kann man das Text-File herunterladen.
Hat man die Sprache mit Transcriptive in Text umgesetzt, kann man den Text auch nutzen, um im Video nach entsprechenden Worten und Phrasen zu suchen. Der Text ist dabei timecode-genau mit dem Video synchronisiert. Natürlich kann der Text auch noch manuell editiert und verbessert werden.
Die »Speech-to-Text«-Funktionalität von Transcriptive kann mit verschiedenen Spracherkennungstechnologien genutzt werden, um so Untertitel, Schlagworte für die Suchmaschinenoptimierung von Videos oder Metadaten zu generieren und auch um neue Suchfunktionen innerhalb von Premiere bereitzustellen. Während der IBC2017 demonstrierte der Hersteller das Plug-In im Zusammenspiel mit der Spracherkennungstechnologie von Speechmatics, es kann aber beispielsweise auch mit der AI-Lösung Watson von IBM arbeiten. Im Zusammenspiel mit Speechmatics erreiche das System eine Genauigkeit von 95 %, gibt der Hersteller an.
Die mit Transcriptive generierten Texte können laut Hersteller auch problemlos in die Formate .srt, .stl, or .vtt umgewandelt werden, um sie dann in anderen Applikationen oder Umgebungen zu nutzen, etwa auf YouTube oder für SEO- oder Untertitelzwecke.
Den Clou von Transcriptive fasst Jim Tierney, President von Digital Anarchy, so zusammen: »Transcriptive generiert unter Einsatz von künstlicher Intelligenz genaue Transkriptionen, und das innerhalb von wenigen Minuten und zu sehr niedrigen Kosten. Mit unserer Lösung kann man etwa ein 60-Minuten-Video innerhalb von rund 10 Minuten zu Kosten von weniger als 4 US-Dollar transkribieren — und das alles ohne Premiere Pro zu verlassen.«
Das Plug-In Transcriptive kostet rund 300 US-Dollar (Netto-Listenpreis), es gibt auch eine kostenlose Testversion. Im Preis enthalten ist die Transkription von bis zu 16 Stunden Videomaterial pro Monat, abhängig von der genutzten Technologie und dem Funktionsumfang gibt auch andere Modelle mit bis zu 100 Freistunden pro Monat.