KI-gestütztes Audiotool von Adobe
Bei der MAX in Japan zeigte Adobe ein KI-gestütztes Audio-Tool, das Stimmen, Nicht-Sprachgeräusche und andere Hintergrundgeräusche trennen kann.
Schlechte Audioqualität ist eine ständige Herausforderung für Videoproduzent_innen. Audioprobleme, die durch Windeinflüsse, suboptimale Mikrofonpositionen, Publikumslärm und andere Störgeräusche verursacht werden, können Videos unbrauchbar machen. Während diese Probleme in der Vergangenheit nicht einfach zu beheben waren, eröffnen Fortschritte in der KI-Entwicklung neue Möglichkeiten, die Audioverarbeitung zu revolutionieren und die Erstellung hochwertiger Videos für alle einfacher zu machen.
Adobe hat mit Project Sound Lift so eine Lösung vorgestellt, eine KI-gestützte Technologie, die Sprachaufnahmen eines Videos in verschiedene Spuren – Stimmen, Nicht-Sprachgeräusche und andere Hintergrundgeräusche – trennt. Project Sound Lift ist eine One-Click-Lösung, die hilft, Audioaufnahmen in einer Reihe von Szenarien mühelos zu bearbeiten, indem sie KI dazu nutzt, Sprache und Ton unabhängig voneinander zu optimieren, zu transformieren und zu kontrollieren.
In Project Sound Lift integriert ist Adobes »Sprache verbessern«-Technologie, die bereits in Adobe-Anwendungen wie Premiere Pro verfügbar ist und die die Art und Weise, wie Kreative Audioinhalte in Studioqualität produzieren und steuern, weiter verbessern soll.
Das von den Sprach-KI-Forschenden bei Adobe Research entwickelte Project Sound Lift wurde auf der Adobe MAX in Japan im Rahmen der Adobe Sneaks vorgestellt. Die Sneaks Sessions gaben Einblicke in Prototyp-Ideen und -Technologien, die das Potenzial haben, zukünftig wichtige Bestandteile der Adobe-Produkte zu werden.
Frühere KI-Audiomodelle erforderten oft saubere, eindeutige Eingangsgeräusche – z. B. einzelne Sprecher_innen oder ein einzelnes Schallereignis ohne Hintergrundgeräusche oder Echos – während Aufnahmen aus der realen Welt diese Bedingungen selten erfüllen. Diese können Rauschen, Hall, mehrere Sprecher_innen und andere Schallereignisse enthalten, die sich oft nicht kontrollieren lassen. Diese Tatsache hat die Anwendung von Audio-KI bei alltäglichen Aufnahmen eingeschränkt und es für Laien erschwert, die oft komplexen Audiotools zu nutzen.
Project Sound Lift kann jetzt eine breite Palette von Audio-Ereignissen aus dem täglichen Leben erkennen und verwalten, einschließlich der Aufteilung von Sprache, Applaus, Lachen, Alarmen, Menschenmengen und verschiedenen anderen Umgebungsgeräuschen in verschiedene Spuren. Jede Spur kann individuell gesteuert werden, um den Gesamteindruck und die Qualität des Klangs zu maximieren.
Beispiele für Project Sound Lift in Aktion
Project Sound Lift kann sich überschneidende Töne in einem Video trennen, um die wichtigste Spur hervorzuheben. In diesen Beispielen werden die Einführungsstimme und die Keynote von Adobe-CEO Shantanu Narayen von der Hintergrundmusik isoliert, und die Stimme von Adobe Creative Cloud-Evangelist Paul Trani wird von den Applausgeräuschen getrennt – alles mit nur einem einzigen Klick.
Project Sound Lift kann mehrere Sprachspuren gleichzeitig erkennen und sie von Hintergrundgeräuschen isolieren. Dies kann bei der Aufnahme von Filmmaterial auf einer öffentlichen Veranstaltung – in diesem Fall auf der Fläche einer belebten Konferenz wie der Adobe MAX – unglaublich nützlich sein. Indem die Lautstärke der Hintergrundgeräusche separat reduziert wird, kann die Stimme des Sprechers vor der Kamera klar gehört werden.
Project Sound Lift kann nicht nur die Audioqualität verbessern: Es kann auch eine kreative Leinwand für Spaß und Inspiration bieten. In diesem Beispiel wird die Tonspur des Sprechers von den Straßengeräuschen im Hintergrund getrennt und mit einer Stimmmodulationstechnik in einen skurrilen roboterähnlichen Klang verwandelt.