Lippensynchron: Mit Audioclips realistische Videos erstellen

Share on facebook
Share on twitter
Share on linkedin
Share on xing
Share on whatsapp
Share on email
Share on print

Lippensynchron: Mit Audioclips realistische Videos erstellen

Share on facebook
Share on twitter
Share on linkedin
Share on xing
Share on whatsapp
Share on email
Share on print

Forscher der University of Washington haben Algorithmen entworfen, die eine harte Nuss im Bereich der Computervision knacken helfen sollen: Sprachaufnahmen in ein realistisches, lippensynchrones Video der sprechenden Person zu verwandeln. Detailliert ausgeführt wird das zugrundeliegende Konzept in einem Paper, das die Forscher an der SIGGRAPH 2017 am 2. August vorstellen wollen. 

obama-photos-750x229

Forscher der University of Washington haben Algorithmen entworfen, die eine harte Nuss im Bereich der Computervision knacken helfen sollen: Sprachaufnahmen in ein realistisches, lippensynchrones Video der sprechenden Person zu verwandeln. Detailliert ausgeführt wird das zugrundeliegende Konzept in einem Paper, das die Forscher an der SIGGRAPH 2017 am 2. August vorstellen wollen. 

Das Team hat ein sehr realistisch wirkendes Video des vormaligen US-Präsidenten Barack Obama erstellt, in dem dieser über Terrorismus, Vaterschaft, mehr Jobs und andere Themen spricht. Dabei kamen Audioclips der entsprechenden Reden und die vorhandenen wöchentlichen Videoansprachen zum Einsatz, die ursprünglich von anderen Dingen handelten.

 

YouTube

Mit dem Laden des Videos akzeptieren Sie die Datenschutzerklärung von YouTube.
Mehr erfahren

Video laden

Video: 

CREDIT

University of Washington

Ira Kemelmacher-Shlizerman, Assistant Professor an der Paul G. Allen School of Computer Science & Engineering, sagt, dass derartige Lösungen noch nie zu sehen waren. Die Konvertierung von Audio zu Video eröffne Anwendungsmöglichkeiten wie die Verbesserung von Videokonferenzen oder futuristisch anmutende wie in der Lage zu sein, mit einer historischen Gestalt in der virtuellen Realität zu sprechen, indem man Bewegtbilder nur mit Audiodateien erzeuge.

In der visuellen Lippensynchronisation konvertiert die Lösung Audiodateien einer individuellen Rede in realistische Mundformen, die dann auf den Kopf jener Person aus einem anderen Video projiziert und mit dessen Darstellung verschmolzen werden.

Die Forscher haben für das System Barack Obama ausgewählt, weil das Verfahren für das maschinelle Lernen vorhandenes Videomaterial voraussetzt, um daraus zu lernen, und weil viele Stunden an Aufnahmen des früheren Präsidenten öffentlich verfügbar waren. In Zukunft werde es für jeden möglich sein, mit Chat-Tools wie Skype oder Messengern Videos zu sammeln, um Computermodelle zu trainieren, so Kemelmacher-Shlizerman.

Das unheimliche Tal überbrücken

Das Audiostreaming über das Internet benötigt wesentlich weniger Bandbreite als Video. Somit könnte das neue System dazu beitragen, Videochats bei schlechten Verbindungen flüssiger zu machen. In Skype oder Google Hangouts erscheinen die Videos oft ruckelnd und in niedriger Auflösung, während die Audioübertragung sehr gut sei, sagt Co-Autor und Professor an der Allen School Steve Seitz. Wenn man also Audio nutzen könne, um eine wesentliche bessere Videoqualität bereitzustellen, wäre das fantastisch.

Durch die Umkehrung des Prozesses, nämlich das Einstellen von Videos in das Netz anstelle von nur Audio, könnten die Forscher Algorithmen entwickeln, die reale von eigens hergestellten Videos unterscheiden helfen. Das neue Tool für das maschinelle Lernen soll einen wesentlichen Fortschritt darstellen, gilt es das sogenannte Phänomen des unheimlichen Tals (uncanny valley) zu überwinden, das oftmals die Bemühungen, realistische Videos aus Audiodateien zu erschaffen, durchkreuzt hat. Wenn künstlich erstellte Anthropomorphismen wie Avatare oder Roboter fast wie echt erscheinen, aber immer noch ein Quentchen zu fehlen scheint, werden sie als gruseliger oder abstoßender empfunden, als eindeutig künstliche Gestalten.  

Besonders empfänglich seien die Menschen, was Bereiche um den Mund betreffe, wenn sie nicht realistisch erschienen, so Hauptautor Supasorn Suwajanakorn, Allen School.  Seien die Zähne nicht korrekt gerendert oder das Kinn bewege sich zur falschen Zeit, bemerkten dies die Leute sofort und es erscheine wie eine Fälschung. Somit müsse die Mundregion perfekt gerendert werden, um auf die andere Seite des Uncanny Valley zu gelangen.

Frühere  Konzepte der Audio-Video-Konvertierung bestanden darin, vielen Menschen in einem Studio zu filmen, die dieselben Sätze wieder und wieder aufzusagen hatten. Dann versuchte man zu erfassen, wie ein bestimmter Ton mit unterschiedliche Mundformen korreliert. Doch das ist teuer, mühsam und zeitraubend. Daher hat Suwajanakorn Algorithmen entwickelt, die von bereits vorhandenen Videos im Internet oder aus anderen Quellen lernen.

Maschinelles Lernen mit weniger Daten

Das Team näherte sich der Lösung in zwei Schritten. Der erste bestand darin, ein neuronales Netzwerk beim Anschauen von Videos einer Person anzulernen und verschiedene Töne in einfache Mundformen zu übersetzen.  Durch die Kombination früherer Forschungsarbeiten vom Graphics and Image Laboratory der University of Washington mit der neuen Mundsynthesetechnik waren die Wissenschaftler in der Lage, diese Mundformen und Texturen in ein bestehendes Referenzvideo der entsprechenden Person einzublenden. Außerdem haben sie eine kleine Zeitverschiebung eingebaut, damit das neuronale Netzwerk antizipiert, was der Sprecher als Nächstes sagen wird.

Derzeit kann das neuronale Netzwerk an einer Person lernen. Das heißt in dem Fall, dass die Stimme von Obama, wenn dieser die tatsächlich  geäußerten Worte spricht, die einzige Information für das zusammengesetzte Video darstellt. In Zukunft sollen Stimme und Sprachmuster einer Person mit weniger Daten erkannt werden, etwa nur mit einer Stunde Videomaterial zum Lernen anstelle von 14 Stunden.

Aber, so Seitz, es sei nicht möglich, die Stimme von irgendjemanden zu nehmen und in ein Obama-Video einzubauen. Man habe sich bewusst dagegen entschieden, jemandem die Worte anderer Leute in den Mund zu legen. Vielmehr verwende man die tatsächlich gesprochenen Worte einer Person und verwandle sie in ein realistisches Video genau dieser Person. 

Share on facebook
Facebook
Share on twitter
Twitter
Share on linkedin
LinkedIn
Share on xing
XING
Share on whatsapp
WhatsApp
Share on email
E-Mail
Share on print
Drucken

Ihre Meinung zum Artikel

Abonnieren
Benachrichtige mich bei
guest
0 Comments
Inline Feedbacks
View all comments

Andere Leser haben sich auch für die folgenden Artikel interessiert

Wie keine andere technologische Entwicklung zuvor verändert die Digitalisierung Wirtschaft und Gesellschaft. Einzelne digitale Technologien entwickeln im Zusammenspiel eine nie erlebte Disruptions- und Innovationsdynamik. Die Form der Zusammenarbeit zwischen Mensch und Maschine sowie das Zusammenspiel von Virtualität und Realität machen diese Dynamik besonders deutlich. Die Digitalisierung lässt sich auf der CeBIT in Anwendungsszenarien erleben.

Tragen Sie sich jetzt kostenlos und unverbindlich ein, um keinen Artikel mehr zu verpassen!

    * Jederzeit kündbar

    Entdecken Sie weitere Magazine

    Schön, dass Sie sich auch für weitere Fachmagazine unseres Verlages interessieren.

    Unsere Fachtitel beleuchten viele Aspekte der Digitalen Transformation entlang der Wertschöpfungskette und sprechen damit unterschiedliche Leserzielgruppen an.