Mehr als Deep Fakes

Forscher an der Carnegie Mellon Universität können den Inhalt eines Videos automatisch in den Stil eines anderen Videos überführen. Damit lassen sich Gesichtsausdrücke eines Komödianten in die einer Cartoon-Figur übertragen oder eine Narzisse lässt sich in der Art eines Hibiskus zum Erblühen bringen.

Das datengetriebene Verfahren macht menschliche Eingriffe überflüssig. Es kann schnell große Mengen an Videodaten umwandeln, -- ein Segen für die Filmproduktion, so die Entwickler. Es lässt sich auch für die Konvertierung von Schwarzweißfilmen in Farbe einsetzen oder um Inhalte für VR-Szenarien zu erschaffen.

Für Aayush Bansal, Ph.D. Student am Robotics Institute der CMU, war die Filmproduktion der wichtigste Anreiz für die Entwicklung des Verfahrens. Filme sollten damit schneller und kostengünstiger produziert werden können, Künstler könnten mit diesem Werkzeug ein initiales Modell sukzessive verbessern.

Die Technik eigne sich auch für „Deep Fakes“, Videos also, in denen das Bild einer Person ohne Erlaubnis eingebaut werde, so dass die Person Dinge tue oder sage, die ihr nicht entsprechen, gibt Bansal zu bedenken. Bansal präsentiert das Verfahren an der European Conference on Computer Vision ECCV 2018 in München. Co-Autor ist Deva Ramanan, CMU Associate Professor of Robotics.

Die Inhalte eines Videos in den Stil eines anderen zu transferieren, erfordert künstliche Intelligenz. Insbesondere eine Gruppe von Algorithmen unter der Bezeichnung Generative Adversarial Networks (GANs) bekannt, haben es den Computern leichter gemacht, den Stil eines Bilds auf den eines anderen anzuwenden, besonders, wenn die Bilder nicht sorgfältig passend gemacht worden sind.

GAN: Maschinelles Lernen im Wettbewerb

In einem GAN werden zwei Modelle generiert: ein Diskriminator, der entdecken lernt, was mit dem Stil eines Bildes oder Videos konsistent ist, und einen Generator, der lernt, Bilder oder Videos zu erzeugen, die einem bestimmten Stil entsprechen. Indem die beiden gegeneinander arbeiten – der Generator versucht den Diskriminator hinters Licht zu führen und der Diskriminator bewertet die Effektivität des Generators – lernt das System letztlich, wie der Inhalt in einen bestimmten Stil übergeführt werden kann.

Eine Variante, ein zyklisches GAN, schließt den Kreis, etwa so, als ob man eine Rede auf Englisch ins Spanische übersetzen würde und dann wieder zurück ins Englische und dann bewerten würde, ob die zweifach übersetzte Rede noch einen Sinn ergäbe. Der Einsatz solcher Netzwerke für die Analyse räumlicher Bildeigenschaften hat sich als effektiv bei der Umwandlung eines Bilds in den Stil eines anderen erwiesen.

Das räumliche Verfahren lässt im Hinblick auf Videos noch einige Wünsche offen, denn Artefakte und Fehlstellen tauchen in diesem Kreislauf der Übersetzungen auf. Um das zu umgehen, haben die Forscher ein Verfahren namens Recycle-GAN entwickelt, das nicht nur räumliche, sondern auch zeitliche Informationen einschließt. Die zusätzlichen Informationen zu den temporären Veränderungen grenzen den Prozess ein und führen zu besseren Ergebnissen. Mit Recycle-GAN konnten die Entwickler den Comedian John Oliver in eine Art Stephen Colbert verwandeln und dann wieder zurück. Oder das Gesicht von John Olivers lässt sich in einen Cartoon-Charakter verwandeln. Recycle-GANs erlauben nicht nur die Kopie von Gesichtsausdrücken, sondern auch von Bewegungen und der Abfolge einer Aktion.

Die Effekte beschränken sich zudem nicht auf Gesichter oder Körper. Die Forscher zeigten, dass ein Video einer erblühenden Blume zur Manipulation des Bildes einer anderen Blumenart herhalten kann. Schnell ziehende Wolken an einem stürmischen Tag lassen sich gleichsam abbremsen, um den Eindruck ruhigeren Wetters zu imitieren.

Solche Effekte könnten sich bei der Entwicklung autonomer Fahrzeuge als hilfreich erweisen, die nachts oder bei schlechtem Wetter unterwegs seien, meint Bansal. Unter solchen Verhältnissen lassen sich Objekte schwer erkennen und identifizieren. Wenn man nun mit Recycle-GAN tagsüber gewonnene Szenarien auf die nächtliche oder stürmische Situation übertrage, lassen sich diese nutzen, um Autos für derart schwierigen Situationen zu trainieren.  

Bild: Forscher an der Carnegie Mellon-Universität haben ein Verfahren entwickelt, mit dem sich der Inhalt eines Videos automatisch in den Stil eines anderen Videos transferieren lässt, zum Beispiel die Gesichtsausdrücke einer Person in das Video einer anderen Person oder gar Cartoon-Figur.  

0
RSS Feed

Hat Ihnen der Artikel gefallen?
Abonnieren Sie doch unseren Newsletter und verpassen Sie keinen Artikel mehr.

Mit einem * gekennzeichnete Felder sind Pflichtfelder!

Neuen Kommentar schreiben

Entdecken Sie die Printmagazine des WIN-Verlags