Copy-Paste in 3D: KI-Tool hilft Computern, die Welt zu interpretieren

Verantwortlicher Redakteur:in: Rainer Trummer 3 min Lesedauer

Anbieter zum Thema

Das von Forschenden der USC Viterbi entwickelte Verfahren 3D Copy-Paste kann die Art und Weise verbessern, wie Computer Objekte im 3D-Raum sehen und interpretieren.

(Quelle: eranicle/stock.adobe.com)

Beliebte Augmented-Reality-Apps (AR) ermöglichen es zum Beispiel, das Bild eines Möbelstücks auszuschneiden und in ein Foto des eigenen Wohnzimmers einzufügen, um zu sehen, ob es passt. Ein Forscherteam am Thomas Lord Department of Computer Science der USC Viterbi (University of Southern California) hat nun eine ähnliche Technik entwickelt. Somit lassen sich virtuelle 3D-Objekte kopieren und in reale Innenraumszenen einfügen. Daher entsteht ein insgesamt natürliches und realistisches Bild in Bezug auf räumliche Beziehungen, Objektausrichtung und Beleuchtung. Die Technik, 3D Copy-Paste genannt, kann Computern beibringen, wie sie ein virtuelles 3D-Objekt in vielen verschiedenen Umgebungen erkennen können. Dabei erübrigt sich der langwierige und teure Prozess, bei dem ein Mensch den Computer mit Unmengen von Daten füttern muss.

3D Copy-Paste: Wie Computer 3D-Objekte in vielen verschiedenen Umgebungen erkennen

Systeme für das maschinelle Lernen sollen somit 3D-Objekte in Innenräumen erkennen können, so Informatik-Professor Laurent Itti. Die neue Methode verbessere die 3D-Objektmodelle erheblich.

Einer von Ittis Doktoranden, Yunhao "Andy" Ge, präsentiert ein Forschungspapier mit dem Titel "3D Copy-Paste: Physically Plausible Object Insertion for Monocular 3D Detection" (Physikalisch plausibles Einfügen von Objekten für die monokulare 3D-Erkennung) auf der 37th Conference on Neural Information Processing Systems (NeurIPS 2023) in New Orleans (11. bis 16. Dezember).

Ge erklärt den Hintergrund der Arbeit. Man könne fotorealistische 3D-Objekte in eine reale Innenraumszene einfügen und genügend Daten für ein KI-Modell generieren. Dieses KI-Modell wiederum könne man trainieren, sodass es solche Objekte selbstständig immer besser erkennen kann.

Itti und Ge arbeiteten bei diesem Projekt mit dem Assistenzprofessor für Informatik Jiajun Wu und seinem Doktoranden im vierten Jahr an der Stanford University, Hong-Xing "Koven" Yu, sowie mit vier Informatikern von Bosch Research North America zusammen: Cheng Zhao, Yuliang Guo, Xinyu Huang und Liu Ren.

Beispiel: Autonomes Fahren

Das 3D-Copy-Paste-Tool ist in der KI-Welt als Technik der generativen Datenerweiterung bekannt. Dazu bringt man Algorithmen bei, kohärente und aussagekräftige Inhalte zu erzeugen. Diese sind dem von Menschen geschaffenen Output sehr ähnlich, indem sie aus Mustern, Trends und Beziehungen lernen.

3D Copy-Paste könnte profunde Auswirkungen auf die Bereiche Computergrafik und Computer Vision haben, so Itti und Ge. Ein Beispiel sei das autonome Fahren. Wenn man einer KI in einem selbstfahrenden Auto beibringen will, eine Kuh vor dem fahrenden Fahrzeug nicht zu überfahren, könnte die KI zunächst verwirrt sein. Denn eine Kuh steht normalerweise nicht mitten auf der Straße. Man müsste ihr ein Bild einer Kuh vor einem Auto vorlegen, damit die KI das Objekt schnell erkennt. 

Training für das KI-Modell

Mit dem 3D-Copy-Paste-Tool hingegen kann ein Computer ein Objekt in einer unendlichen Vielfalt von Umgebungen erkennen, ohne dass er mit einer Unmenge von Bildern gefüttert werden muss. Und er kann neue Bilder erstellen, die es in der realen Welt nicht gibt. Das virtuelle 3D-Objekt erzeugt automatisch seine, für die KI verständliche, Beschreibung, sobald man es in eine reale Innenraumszene einfügt, wie Ge weiter ausführt.

Das Tool könne Millionen von Kombinationen eines Bildes eines Objekts erzeugen. Somit lasse sich das KI-Modell aufgrund der hochwertigen Daten, die dieses Tool erzeugt, viel besser trainieren, so Itti.

Keine Kollisionen mit dem bestehenden Raumlayout

Das eingefügte Objekt muss physikalisch plausibel sein. Das heißt, dass es nicht mit vorhandenen Objekten "kollidiert" und die richtige Beleuchtung hat. 3D Copy-Paste identifiziert zunächst physisch realisierbare Positionen und Posen für die eingefügten Objekte, um Kollisionen mit dem bestehenden Raumlayout zu vermeiden. Anschließend wird die räumlich variierende Beleuchtung für den Einfügeort geschätzt. Sodann lassen sich die virtuellen Objekte mit plausiblen Erscheinungen und Schatten in die Originalszene einfügen.

Industrie: Korrekte virtuelle Ergänzungen für den digitalen Zwilling

3D Copy-Paste kann also die Art und Weise verbessern, wie Computer Dinge im 3D-Raum sehen und interpretieren. Eine weitere Anwendung von 3D Copy-Paste könnte in der Digitalisierung industrieller Arbeitsabläufe liegen. Sobald Industrieunternehmen ihre Arbeitsabläufe digitalisieren und digitale Zwillinge von realen Anlagen erstellen, werde die Fähigkeit, realistische 3D-Objekte in diese digitalen Darstellungen einzufügen, entscheidend sein, so Itti und Ge.

Jetzt Newsletter abonnieren

Verpassen Sie nicht unsere besten Inhalte

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Mit dem 3D-Copy-Paste-Verfahren lasse sich gewährleisten, dass alle virtuellen Ergänzungen dieser digitalen Zwillinge, zum Beispiel neue Anlagen oder Strukturen, physikalisch korrekt und visuell kohärent sind.

Weitere Informationen: https://viterbischool.usc.edu/

Erfahren Sie hier mehr über ein KI-Modell für Computer-Vision.

Lesen Sie auch: "Immersive XR-Szenarien: Wo niedrige Latenz und hoher Durchsatz zusammenkommen"