WDR: Text-to-Speech-System für Textnachrichten im Katastrophenfall
Für mehr Barrierefreiheit hat der WDR ein Text-to-Speech-System implementiert.
Die Senderangebote des WDR wurden so ausgestattet, dass eingeblendete Textnachrichten oder Ticker-Meldungen auch in gesprochene Sprache umgesetzt werden können. Diese Funktion kann ad-hoc bei wichtigen Ereignissen oder im Katastrophenfall aktiviert werden. Ein Text-to-Speech-System (TTS) generiert dann den Text in gesprochene Sprache und fügt dieses Audiosignal zusätzlich dem ausgestrahlten Sendesignal bei. Visuell beeinträchtigte Zuschauerinnen und Zuschauer können die Textmeldungen damit auch als Audiosignale hören – besonders wichtig im Katastrophenfall. Dieses neue System für mehr Barrierefreiheit integrierte Logic Media Solutions nahtlos in die Produktionsabläufe des WDR.
Zur Sprachsynthese wird das Allinga Voice TTS-Modul genutzt, eine gemeinsame Entwicklung der Fraunhofer Institute IAIS und IIS. Es besteht aus einem redundanten System, das Allinga Voice TTS und einen von Logic programmierten Client verbindet. Das Allinga Voice TTS Modul wurde beim WDR Köln on-prem installiert. Wenn im Sendezentrum ein Signal zur Texterstellung ausgelöst wird und eine Textnachricht am Newsfeed-Server im ARD CN anliegt, fragt der Client diese am Server ab, und die Allinga Voice TTS synthetisiert daraus Sprache in Form von Audiosamples. Die Audioserver sind aus Redundanzgründen doppelt vorhanden. Das produzierte Audiosignal wird dann via AES-3 in der Sendezentrale verfügbar gemacht und bei Bedarf ausgespielt. Dabei senkt der dazu genutzte Embedder den eigentlichen Sendeton ab und spielt das Audiosignal der Audio-Server auf den Sendeton auf.
»Wir freuen uns, dass wir mit unserer Allinga Voice TTS Technologie dazu beitragen können, die Soforthilfe und den Informationsfluss in Katastrophenfällen zu unterstützen. Unsere Allinga Sprachassistenzlösungen sind vielfältig einsetzbar und tragen maßgeblich zur Barrierefreiheit bei. In diesem Kontext bieten wir über das TTS-Modul hinaus noch weitere Technologien, wie die Spracherkennung, die gesprochene Sprache in Text umwandelt. So sind auch Einsatzszenarien in anderen Kontexten denkbar – etwa die Transkription von öffentlichen Reden«, sagt Oliver Hellmuth, Abteilungsleiter am Fraunhofer IIS.
Bei der Implementierung des Systems legte Logic besonderen Wert auf einen weitestgehend automatisierten Ablauf sowie auf die Schnelligkeit des Zuschaltens, da das System besonders bei Katastrophenfällen zum Einsatz kommen wird. Der Fokus lag hierbei auf der direkten Ansprache der Lösung ohne zusätzliche Arbeitsschritte oder Geräte. Das TTS-System wird über den Broadcast-Controller (KSC) gesteuert, und das Starten und Stoppen erfolgt in der Praxis vom Newsroom aus durch den Anwender (Redaktion) ohne einen SAW-Ingenieur zu benötigen.
Hintergrund Allinga
Die Sprachassistenzlösung Allinga ist eine gemeinsame Entwicklung der Fraunhofer-Institute IAIS und IIS auf Basis neuester KI-Technologien. Zwei Module, die Spracherkennung und Sprachsynthese »Allinga Voice«, sind bisher verfügbar und beweisen sich bereits erfolgreich auf dem Markt. Beide Module sind unabhängig voneinander voll funktionsfähig. Weitere Komponenten werden gerade entwickelt. Im Zusammenspiel miteinander ergeben diese schließlich ein voll individualisierbares Sprachassistenzsystem nach europäischen Datenschutzstandards mit voller Datensouveränität.