AI-Präsentations-Engine von Sony: REA-C1000
Vorträge per KI übertragen: Sony bietet den AI-Engine REA-C1000 an, der Vorträge vollautomatisch verständlicher und lebhafter gestalten kann.
Die Videoübertragung von Vorträgen lebendiger und verständlicher zu gestalten, ohne aber dafür einen großen technischen Apparat und umfassendes Personal einsetzen zu müssen: das will Sony mit dem AI-Engine REA-C1000 ermöglichen.
Der kompakte Quader enthält Hard- und Software für Bildanalyse und Videogestaltungsfunktionen — und wird zum automatisierten Bildregisseur.
Auch in schon bestehende AV-Installationen integriert, soll das Sony-Kästchen wahre Wunderdinge bewirken: lebhaftere, besser verständliche Videoübertragungen von Vorträgen und Präsentationen, statt nur dröger Minimal-Streamings. Der Nettopreis des Geräts soll in der Größenordnung von 3.200 Euro liegen.
Sony spricht beim REA-C1000 über eine Edge-Analytics-Lösung: Der AI-Engine analysiert und verarbeitet Videoinhalte in Echtzeit und automatisiert die Bildregie, ohne dass spezielle Schulungen, zusätzliches Personal oder Ausrüstung erforderlich wäre — so zumindest der Hersteller.
Das kompakte Gerät analysiert hierbei die angeschlossenen Kamerasignale und identifiziert die jeweils bildwichtigen Objekte. Das geschieht mit Bewegungs- und Gesichtserkennung in Kombination mit Farb- und Formerkennung.
Die jeweils in den einzelnen Kamerasignalen detektierten, wichtigen Elemente können extrahiert und kombiniert werden: So kann etwa ein Bild der oder des Vortragenden automatisch um eingestanzte Overlays von einer Dokumentenkamera ergänzt werden.
REA-C1000 soll sozusagen zum leistungsstarken, intelligenten Videomischer für Bildungseinrichtungen, Behörden und Unternehmen werden. Als Zentrale, die mit angeschlossenen Kameras und AV-Anlagen kombiniert wird, um kostengünstig professionelle und ansprechende Inhalte zu erstellen.
Dabei stehen verschiedene Optionen zur Verfügung:
- Handschrift-Extraktion und Presenter-Overlay
- PTZ Auto Tracking
- Nahaufnahmensteuerung per Geste oder mit Zuschauer-Detektion
- Chroma Keyless CG Overlay
- Focus Area Cropping
Handschrifterkennung
Egal, wo der Vortragende steht: Mit der Handschrifterkennung wird laut Sony sichergestellt, dass geschriebene Wörter und Diagramme auf einer Tafel oder einem Bildschirm via Augmented Reality für die Zuhörer vollständig sichtbar bleiben.
Presenter-Overlay, Chromakey-less CG Overlay
Presenter-Overlay erlaubt es den Zuschauern, die Redenden weiterhin zu sehen, während parallel die Ideen und Denkprozesse mit Wörtern, Formeln, Diagrammen oder animierten Präsentation erläutert werden. Auch für Remote-Teilnehmer und zeitversetzte Wiederholungen bleibt damit viel klarer, was der Sprecher darstellen wollte — live, ohne Postproduction.
Chroma Keyless CG Overlay — eine der dafür verwendeten Funktionen — extrahiert den Moderator und überlagert ihn auf jedem Hintergrund ohne etwa einen Greenscreen zu benötigen (geplant für Herbst 2019, Beispielvideo am Textende).
PTZ Auto Tracking und Gestensteuerung
REA-C1000 kann die angeschlossenen PTZ-Kameras auch in puncto Schwenken, Neigen und Zoomen steuern. Die jeweils Vortragenden können damit laut Sony präzise und ruckelfrei im Bild gehalten werden, die Präsentation bleibt stets im Fokus. Die Tracking-Funktion ist somit eine kostengünstige Lösung für den Bildungs- und Unternehmensbereich sowie für Konferenzen, weil sie etwa einen separaten Kameramann überflüssig machen kann, so der Hersteller.
Es soll auch möglich sein, auf eine bestimmte Geste des Moderators hin zwischen Totale und Nahaufnahme umzuschalten. Wenn es im Publikum Reaktionen gibt, kann eine Zuschauerkamera das in Echtzeit erkennen und darauf reagieren.
Die REA-C1000 lässt sich beispielsweise so steuern, dass der elektronische Auto-Zoom der Kamera auf eine Person gerichtet wird, wenn jemand im Publikum aufsteht.
Focus Area Cropping – in Full HD
Bei Bedarf kann REA-C1000 auch Bildausschnitte erzeugen. Das Bildsignal einer Kamera kann dabei auch gleichzeitig mit zwei unterschiedlichen Bildausschnitten genutzt werden: Dabei wird ein totaleres 4K-Bild mit der Kamera erfasst und vom AI-Engine in einem oder mehreren HD-Ausschnitten dargestellt. Der ausgeschnittene Bereich kann dabei entweder statisch oder dynamisch festgelegt werden, etwa um den Bewegungen des Sprechers zu folgen (diese Funktion soll zu einem späteren Zeitpunkt im Jahr 2019 im Rahmen eines Software-Updates verfügbar werden).