30.11.2021 – Kategorie: Technik

Roboter: Wie sie mit künstlicher Intelligenz Objektbeziehungen verstehen

Roboter erkennen Objektbeziehungen mit maschinellem LernenQuelle: Jose-Luis Olivares, MIT, and iStockphoto

Ein neues Modell für maschinelles Lernen könnte Roboter in die Lage versetzen, Interaktionen in der Welt so zu verstehen, wie es Menschen tun.

Wenn Menschen eine Szene betrachten, sehen sie Objekte und die Beziehungen zwischen ihnen. Auf Ihrem Schreibtisch steht vielleicht ein Laptop links neben einem Telefon, das sich vor einem Computermonitor befindet. Viele Deep-Learning-Modelle haben Schwierigkeiten, die Welt auf diese Weise zu sehen. Denn verstehen die verflochtenen Beziehungen zwischen den einzelnen Objekten nicht. Ohne Kenntnis dieser Beziehungen hätte ein Roboter, der jemandem in der Küche helfen soll, Schwierigkeiten, einem Befehl wie „Nimm den Pfannenwender, der links vom Herd steht, und lege ihn auf das Schneidebrett“ zu folgen.

Um dieses Problem zu lösen, haben Forschende am MIT ein Modell entwickelt. Es versteht die zugrunde liegenden Beziehungen zwischen Objekten in einer Szene. Ihr Modell stellt die einzelnen Beziehungen nacheinander dar und kombiniert dann diese Darstellungen, um die gesamte Szene zu beschreiben. Dadurch kann das Modell aus Textbeschreibungen genauere Bilder erzeugen. Das gilt selbst dann, wenn die Szene mehrere Objekte enthält, die in unterschiedlichen Beziehungen zueinander angeordnet sind.

Wenn Roboter komplizierte Aufgaben ausführen müssen

Diese Arbeit könnte in Situationen angewendet werden, in denen Roboter komplizierte, mehrstufige Manipulationsaufgaben ausführen müssen. Dazu gehören beispielsweise das Stapeln von Gegenständen in einem Lager oder den Zusammenbau von Geräten. Sie bringt das Feld auch einen Schritt näher an Maschinen heran, die mit ihrer Umgebung interagieren, wie es Menschen tun.

„Wenn ich auf einen Tisch schaue, kann ich nicht sagen, dass sich ein Objekt an der Position XYZ befindet. Unser Verstand funktioniert nicht so. Wenn wir eine Szene verstehen, dann verstehen wir sie auf der Grundlage der Beziehungen zwischen den Objekten. Wir glauben, dass wir durch den Aufbau eines Systems, das die Beziehungen zwischen Objekten verstehen kann, unsere Umgebung effektiver manipulieren und verändern können“, sagt Yilun Du, Doktorand im Computer Science and Artificial Intelligence Laboratory (CSAIL) und Mitautor der Arbeit.

Du schrieb die Arbeit zusammen mit den Co-Autoren Shuang Li, einem CSAIL-Doktoranden, und Nan Liu, einem Doktoranden an der University of Illinois in Urbana-Champaign, sowie mit Joshua B. Tenenbaum, einem Professor für kognitive Computerwissenschaften in der Abteilung für Gehirn- und Kognitionswissenschaften und Mitglied des CSAIL, und dem Hauptautor Antonio Torralba, dem Delta-Elektronik-Professor für Elektrotechnik und Computerwissenschaften und Mitglied des CSAIL. Die Forschungsergebnisse werden auf der Conference on Neural Information Processing Systems im Dezember vorgestellt.

Eine Beziehung nach der anderen

Das von den Forschenden entwickelte System kann mit einer Textbeschreibung von Objekten und ihren Beziehungen ein Bild einer Szene erzeugen. Ein Beispiel: „Ein Holztisch links von einem blauen Hocker. Eine rote Couch rechts neben einem blauen Hocker.“

Ihr System zerlegt diese Sätze in zwei kleinere Teile, die jede einzelne Beziehung beschreiben („ein Holztisch links von einem blauen Hocker“ und „eine rote Couch rechts von einem blauen Hocker“), und modelliert dann jeden Teil separat. Diese Teile werden dann durch einen Optimierungsprozess kombiniert, der ein Bild der Szene erzeugt.

Die Forscher verwendeten eine Technik des maschinellen Lernens, die so genannten energiebasierten Modelle, um die einzelnen Objektbeziehungen in einer Szenenbeschreibung darzustellen. Diese Technik ermöglicht es ihnen, ein energiebasiertes Modell zu verwenden. Somit lässt sich jede relationale Beschreibung zu kodieren, und dann so zusammenzusetzen, dass alle Objekte und Beziehungen erkennbar sind.

Indem das System die Sätze für jede Beziehung in kürzere Teile zerlege, könne es sie auf verschiedene Weise neu kombinieren. Somit könne es sich besser an Szenenbeschreibungen anpassen, die es vorher noch nicht gesehen habe, erklärt Li.

Sätze für jede Beziehung in kürzere Teile zerlegt

„Andere Systeme würden alle Beziehungen als Ganzes betrachten und das Bild in einem Zug aus der Beschreibung generieren. Solche Ansätze versagen jedoch, wenn wir Beschreibungen haben, die nicht in der Verteilung enthalten sind, etwa solche mit mehr Beziehungen. Denn diese Modelle sind eigentlich nicht in der Lage, Bilder mit mehr Beziehungen in einem Zug zu erzeugen. Da wir jedoch diese separaten, kleineren Modelle zusammensetzen, können wir eine größere Anzahl von Beziehungen modellieren und uns an neue Kombinationen anpassen“, sagt Du.

Das System funktioniert auch in umgekehrter Richtung. Bei einem Bild kann es Textbeschreibungen finden, die zu den Beziehungen zwischen den Objekten in der Szene passen. Darüber hinaus kann das Modell verwendet werden, um ein Bild zu bearbeiten. Denn Objekte lassen sich in der Szene so anordnen, dass sie einer neuen Beschreibung entsprechen.

Das von den Forschenden entwickelte System kann auf der Grundlage einer Textbeschreibung von Objekten und deren Beziehungen ein Bild einer Szene erzeugen. In dieser Abbildung ist das endgültige Bild der Forscher rechts zu sehen und folgt korrekt der Textbeschreibung. Credits: Mit freundlicher Genehmigung der Forscher

Verstehen komplexer Szenen

Die Forschenden verglichen ihr Modell mit anderen Deep-Learning-Methoden, die Textbeschreibungen erhielten und die Aufgabe hatten, Bilder zu erzeugen, die die entsprechenden Objekte und ihre Beziehungen darstellen. In jedem Fall schnitt ihr Modell besser ab als die Grundmodelle. Sie baten auch Menschen zu bewerten, ob die erzeugten Bilder mit der ursprünglichen Szenenbeschreibung übereinstimmten. Bei den komplexesten Beispielen, bei denen die Beschreibungen drei Beziehungen enthielten, kamen 91 Prozent der Teilnehmer zu dem Schluss, dass das neue Modell besser abschnitt.

„Interessant ist, dass wir bei unserem Modell den Satz von einer Beziehungsbeschreibung auf zwei, drei oder sogar vier Beschreibungen erweitern können. Unser Ansatz kann zudem Bilder erzeugen, die durch diese Beschreibungen korrekt beschrieben werden, während andere Methoden versagen“, sagt Du. Die Forschenden zeigten dem Modell auch Bilder von Szenen, die es zuvor noch nicht gesehen hatte, sowie verschiedene Textbeschreibungen zu jedem Bild,. Es konnte dann erfolgreich die Beschreibung identifizieren, die am besten zu den Objektbeziehungen auf dem Bild passte.

Der menschlichen Arbeitsweise sehr nahe

Und als die Forschenden dem System zwei relationale Szenenbeschreibungen gaben, die das gleiche Bild, aber auf unterschiedliche Weise beschrieben, konnte das Modell erkennen, dass die Beschreibungen gleichwertig waren. Die Forscher waren beeindruckt von der Robustheit ihres Modells, vor allem wenn es mit ihm zuvor unbekannten Beschreibungen arbeitete. „Das ist sehr vielversprechend, denn das kommt der menschlichen Arbeitsweise sehr nahe. Der Mensch sieht vielleicht nur einige wenige Beispiele. Aber wir können aus diesen wenigen Beispielen nützliche Informationen extrahieren und sie miteinander kombinieren, um unendlich viele Kombinationen zu schaffen. Und unser Modell hat eine solche Eigenschaft, die es ihm erlaubt, aus weniger Daten zu lernen, aber auf komplexere Szenen oder Bildgenerationen zu verallgemeinern“, sagt Li.

In dieser Abbildung sind die endgültigen Bilder des Forschers mit „unsere“ beschriftet.
Credits: Mit freundlicher Genehmigung der Forscher

Einbau des Modells in Roboter

Diese ersten Ergebnisse sind zwar ermutigend, aber die Forschenden würden gerne sehen, wie ihr Modell bei realen Bildern mit komplexeren Hintergründen und Objekten, die sich gegenseitig verdecken, abschneidet. Sie sind auch daran interessiert, ihr Modell schließlich in Roboter einzubauen. So kann ein Roboter Objektbeziehungen aus Videos ableiten und dieses Wissen dann anwenden, um Objekte zu manipulieren.

„Die Entwicklung visueller Darstellungen, die mit der kompositorischen Natur der uns umgebenden Welt umgehen können, ist eines der wichtigsten offenen Probleme in der Computer Vision. Diese Arbeit macht hier einen bedeutenden Fortschritt, indem sie ein energiebasiertes Modell vorschlägt, das explizit mehrere Beziehungen zwischen den im Bild dargestellten Objekten modelliert. Die Ergebnisse sind wirklich beeindruckend“, sagt Josef Šivic, ein angesehener Forscher am tschechischen Institut für Informatik, Robotik und Kybernetik der Tschechischen Technischen Universität Prag, der nicht an dieser Forschung beteiligt war.

Diese Forschungsarbeit wurde zum Teil von Raytheon BBN Technologies Corp., dem Mitsubishi Electric Research Laboratory, der National Science Foundation, dem Office of Naval Research und dem IBM Thomas J. Watson Research Center unterstützt.

Bild oben: MIT-Forscher haben ein maschinelles Lernmodell für Roboter entwickelt. Es versteht die zugrundeliegenden Beziehungen zwischen Objekten in einer Szene und kann genaue Bilder von Szenen aus Textbeschreibungen erzeugen. Bild: Jose-Luis Olivares, MIT, und iStockphoto

Weitere Informationen: https://composevisualrelations.github.io/

Erfahren Sie hier mehr darüber, wie sich der Grad der VR-Krankheit mit künstlicher Intelligenz vorhersagen lässt.

Lesen Sie auch: „5 Mythen: Wie sie VR im Maschinenbau ausbremsen — und was sie widerlegt“


Teilen Sie die Meldung „Roboter: Wie sie mit künstlicher Intelligenz Objektbeziehungen verstehen“ mit Ihren Kontakten:


Scroll to Top