Wie sich die digitale Bildbearbeitung durch eine KI-Methode von Grund auf verändern könnte

05.06.2023 Verantwortlicher Redakteur:in: Rainer Trummer 4 min Lesedauer

Anbieter zum Thema

MPDV Mikrolab GmbH

Schneider Digital Josef J. Schneider e.K.

invenio Virtual Technologies GmbH

Eine neuartige KI-gestützte Methode verspricht, die digitale Nachbearbeitung von Bildern deutlich zu vereinfachen.

Kleidungsstücke an einem digitalen Avatar anprobieren und von allen Seiten begutachten? Die Blickrichtung des Haustieres auf dem Lieblingsfoto anpassen? Oder die Perspektive auf einem Landschaftsbild verändern?
Diese und ähnliche Fotobearbeitungen haben bisher selbst versierte Profis vor Herausforderungen gestellt.
Eine neue KI-gestützte Methode für die digitale Bildbearbeitung verspricht nun, sie auch für Laien zugänglich zu machen – mit wenigen Mausklicks.
Sie wird von einem Forschungsteam unter Leitung des Saarbrücker Max-Planck-Instituts für Informatik entwickelt, insbesondere von dem dort angesiedelten Saarbrücken Research Center for Visual Computing, Interaction and Artificial Intelligence (VIA).

Die neue Methode hat das Zeug dazu, die digitale Bildbearbeitung für immer zu verändern. „Mit ‚DragGAN‘ entwickeln wir derzeit ein Werkzeug, dass es dank einer übersichtlichen Nutzeroberfläche auch Laien ermöglicht, komplexe Bildbearbeitungen vorzunehmen. Sie müssen nur die Stellen im Foto markieren, die sie verändern möchten. Dann geben sie in einem Menü an, welcher Art die Veränderung sein soll – und mit nur wenigen Mausklicks kann jeder Laie dank KI-Unterstützung die Pose, den Gesichtsausdruck, die Blickrichtung oder den Blickwinkel auf einem Foto, beispielsweise von einem Haustier, anpassen“, erklärt Christian Theobalt, geschäftsführender Direktor des Max-Planck-Instituts für Informatik, Direktor des Saarbrücken Research Center for Visual Computing, Interaction and Artificial Intelligence und Professor an der Universität des Saarlandes am Saarland Informatics Campus.

Generative Adversarial Networks im Einsatz für die digitale Bildbearbeitung

Möglich macht das die Künstliche Intelligenz, genauer gesagt die „Generative Adversarial Networks“, kurz GANs. „Wie der Name sagt, handelt es sich bei GANs um generative Modelle, also solche, die neue Inhalte wie Bilder synthetisieren können. ‚Adversarial‘ zeigt an, dass es sich um ein KI-Modell handelt, in dem zwei Netzwerke gegeneinander spielen“, erklärt der Erstautor des Papers, Xingang Pan, Postdoktorand am Max-Planck-Institut für Informatik und am Saarbrücker VIA-Center. In einem GAN arbeiten ein Generator, der Bilder erstellt, und ein Discriminator, der entscheiden muss, ob die Bilder echt sind oder vom Generator erstellt wurden, gegeneinander. Das System wird so lange trainiert, bis der Discriminator die Bilder des Generators nicht mehr von echten Bildern unterscheiden kann.

Die Einsatzmöglichkeiten von GANs sind vielfältig. Neben der offensichtlichen Anwendung des Bildgenerators sind GANs zum Beispiel gut darin, Bilder vorherzusagen. Die sogenannte Video-Frame-Prediction prognostiziert das nächste Bild eines Videos, was den Datenaufwand beim Videostreaming reduzieren kann. Die GANs können zudem niedrig aufgelöste Bilder hochskalieren und die Bildqualität verbessern, indem sie die Position der zusätzlichen Pixel der neuen Bilder vorhersagen.

Mit wenigen Mausklicks verschiedene Design-Konfigurationen durchspielen

„In unserem Fall erweist sich diese Eigenschaft von GANs als vorteilhaft, wenn in einem Bild zum Beispiel die Blickrichtung eines Hundes geändert werden soll. Das GAN berechnet dann im Grunde das ganze Bild neu und antizipiert, wo welches Pixel im Bild mit der neuen Blickrichtung landen muss. Ein Nebeneffekt davon ist, dass DragGAN auch Dinge berechnen kann, die vorher etwa durch die Kopfposition des Hundes verdeckt waren. Oder wenn der Nutzer die Zähne des Hundes darstellen will, kann er dem Hund auf dem Bild die Schnauze öffnen“, erklärt Xingang Pan. Auch im professionellen Kontext ließe sich DragGAN einsetzen. Beispielsweise könnten Modedesigner den Zuschnitt von Kleidern nachträglich in Fotos anpassen. Fahrzeughersteller könnten andererseits mit wenigen Mausklicks verschiedene Design-Konfigurationen eines geplanten Fahrzeuges durchspielen.

Nachbearbeitung wird einfacher

DragGAN funktioniere zwar bei verschiedenen Objektkategorien wie Tieren, Autos, Menschen und Landschaften. Die meisten Ergebnisse habe man bisher jedoch mit GAN-generierten, synthetischen Bildern erzielt. „Die Anwendung auf beliebige vom Benutzer eingegebene Bilder ist immer noch ein schwieriges Problem, das wir untersuchen", ergänzt Xingang Pan.

Das neue Tool der Saarbrücker Informatiker sorgte bereits wenige Tage nach Veröffentlichung des Preprints in der internationalen Tech-Community für Aufsehen. Es gilt vielen als der nächste große Schritt in der KI-gestützten Bildbearbeitung. Während sich Tools wie Midjourney dazu eignen, neue Bilder zu erstellen, vereinfacht DragGAN die Nachbearbeitung von Bildern enorm.

Nächster großer Schritt für die KI-gestützte digitale Bildbearbeitung

Die neue Methode wird federführend am Max-Planck-Institut für Informatik und dem darin angesiedelten, gemeinsam mit Google eröffneten „Saarbrücken Research Center for Visual Computing, Interaction and Artificial Intelligence (VIA)“ entwickelt, in Zusammenarbeit mit dem Massachusetts Institute of Technology (MIT) und der University of Pennsylvania.

Neben Professor Christian Theobalt und Xingang Pan waren an dem Paper unter dem Titel „Drag Your GAN: Interactive Pointbased Manipulation on the Generative Image Manifold“ beteiligt: Thomas Leimkühler (MPI INF), Lingjie Liu (MPI INF und University of Pennsylvania), Abhimitra Meka (Google) und Ayush Tewari (MIT CSAIL). Das Paper wurde von der ACM SIGGRAPH-Konferenz akzeptiert, der weltweit größten Fachkonferenz für Computergrafik und interaktive Technologien, die vom 6. bis 10. August 2023 in Los Angeles stattfinden wird.

Jetzt Newsletter abonnieren

Verpassen Sie nicht unsere besten Inhalte

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Stand vom 11.01.2024

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass der WIN-Verlag GmbH & Co. KG, Balanstraße 73, Gebäude Nr. 21A, EG, 81541 München, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von redaktionellen Newslettern nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://kontakt.vogel.de/de/win abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung, Abschnitt Redaktionelle Newsletter.

Weitere Informationen:

Originalpublikation (Preprint):
Xingang Pan, Ayush Tewari, Thomas Leimkühler, Lingjie Liu, Abhimitra Meka, and Christian Theobalt. 2023. Drag Your GAN: Interactive Pointbased Manipulation on the Generative Image Manifold. In Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Proceedings (SIGGRAPH ’23 Conference Proceedings), August 6–10, 2023, Los Angeles, CA, USA. ACM, New York, NY, USA, 11 pages.
https://arxiv.org/pdf/2305.10973.pdf

Projektwebsite mit Videodemo: https://vcai.mpi-inf.mpg.de/projects/DragGAN/

Erfahren Sie hier mehr darüber, wie eine KI-Methode komplexe Steuerungen optimieren kann.

Lesen Sie auch: "Robotic Supervision System: Was IoT, digitalen Zwilling und Spieleplattform verbindet"