VR-Gesichter: Exakte, lebensnahe Avatare in Echtzeit

Verantwortlicher Redakteur:in: Rainer Trummer 3 min Lesedauer

Anbieter zum Thema

Die Realität in der virtuellen Realität glaubhafter erscheinen zu lassen ist haben sich viele zum Ziel gesetzt. VR-Systeme sollen etwa soziale Interaktionen über große Distanzen herstellen und immersiver machen, als das herkömmliche Medien je könnten.

(Quelle: Courtesy of Facebook)

Wissenschaftler der Facebook Reality Labs (FRL) haben ein neuartiges Systems namens Codec Avatars entwickelt. Damit können VR-Anwender mit anderen Personen kommunizieren, während sie selbst von lebensechten, präzise animierten Avataren repräsentiert werden.

Derzeit kommen fotorealistische Avatare oft in Computer-Animationen zum Einsatz, wobei die Darsteller mit Sensoren ausgerüstet werden, die geometrische Details der Gesichter und der Mimik optimal erfassen. Nur ist diese Sensortechnik nicht mit vorhandenen VR-Headset-Systemen oder Plattformen vereinbar, und typische VR-Headsets verdecken diverse Gesichtsbereiche, so dass sich eine komplette Gesichtserfassung schwierig gestaltet. Somit empfehlen sich diese Lösungen eher für die Kommunikation in einer Richtung als für die Interaktion, in der zwei oder mehr Personen VR-Headsets tragen.

Authentische soziale Interaktion

„Unsere Arbeit beweist, dass es möglich ist, fotorealistische Avatare präzise über dicht am VR-Headset angebrachte Kameras zu animieren“, sagt der Hauptautor Shih-En Wie von Facebook. Wei und seine Mitarbeiter haben ein Headset mit einem Minimum an Sensoren für die Gesichtserfassung konfiguriert, und ihr System erlaubt die authentische soziale Interaktion in der virtuellen Realität. Die Entwickler von Facebook werden ihr VR-System zur Echtzeit-Gesichtsanimation an der SIGGRAPH 2019 vorstellen, die vom 28. Juli bis 1. August in Los Angeles stattfinden wird.

Die neue Lösung kann Avatar-Köpfe sehr detailliert und lebensnah animieren, indem sie die Mimik des Anwenders mit nur wenigen Kameras (headset mounted camera, HMC) erfasst. Dabei galt es zwei Hürden zu meistern: schwierige Blickwinkel der HMC und große Darstellungsunterschiede zwischen den Bildern der Kameras und den Renderings des Avatars.

Neuronale Netze

Die Forscher haben den Prototypen eines „Trainings“-Headsets entwickelt, der nicht nur über Kameras verfügt, die das Tracking für die Echtzeitanimation gewährleisten, sondern der zusätzlich mit Kameras ausgestattet ist, die für das ideale Gesichtstracking geeignetere Positionen einnehmen. Mit einem Verfahren der künstlichen Intelligenz basierend auf neuronalen Netzen (Generative Adversarial Networks), werden HMC-Infrarotbilder in Bilder konvertiert, die einem gerenderten Avatar gleichen, aber mit denselben Gesichtsausdruck der Person.

Durch den Vergleich der konvertierten Bilder anhand jedes einzelnen Pixels mit den Renderings des 3D-Avatars könne man mittels Differentiable Rendering die Bilder aus dem Tracking präzise mit den Renderings des 3D-Avatars abgleichen. Nach diesem Abgleich trainiere man das neuronale Netz darauf, Gesichtsparameter aus wenigen Kamerabildern in Echtzeit vorherzusagen, so Wei.

Nuancierte Mimik oft schwer zu erfassen

Anhand verschiedener Beispiele ließ sich zeigen, dass die Methode hochwertige Mappings für sehr nuancierte Mimiken etwa in der obere Gesichtshälfte finden kann, die sehr schwer zu erfassen ist: Der Kamerawinkel ist ungünstig und der Kameraabstand zum aufzunehmenden Detail fällt sehr klein aus.  Die Gesichtserfassung erwies sich als enorm detailliert mit winzigen Nuancen an der Zunge, den Zähnen und Augen, wo dem Avatar die detaillierte Geometrie fehlte.

Literatur: "VR Facial Animation via Multiview Image Translation", Shih-En Wei (Facebook), Jason Saragih (Facebook), Tomas Simon (Facebook), Adam W. Harley (Carnegie Mellon University), Stephen Lombardi (Facebook), Michael Perdoch (Facebook), Alexander Hypes (Facebook), Dawei Wang (Facebook), Hernan Badino (Facebook), and Yaser Sheikh (Facebook).

Weitere Informationen: https://research.fb.com/publications/vr-facial-animation-via-multiview-image-translation/

Bild: Lebensnahe Avatare erfordern derzeit noch große Mengen von Audio- und Videodaten der entsprechenden Person. Autumn Trimbel wird ein eigens angepassten System mit Kameras und Mikrophonen im Facebook Reality Lab, Pittsburgh, erfasst. Bild: Courtesy of Facebook

Jetzt Newsletter abonnieren

Verpassen Sie nicht unsere besten Inhalte

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung