Räumliche Wahrnehmung: Wenn Roboter menschlicher werden

Verantwortlicher Redakteur:in: Rainer Trummer 6 min Lesedauer

Anbieter zum Thema

Ein von Forschenden am MIT entwickeltes Modell zielt darauf ab, Robotern eine menschenähnliche räumliche Wahrnehmung ihrer physischen Umgebung zu vermitteln.

(Quelle: Courtesy of the researchers/MIT)
  • Für komplexere Aufgaben müssen Roboter ihre Umwelt wie Menschen wahrnehmen können.

  • Bisher erweist es sich als schwierig, aus den Pixelwerten, die Roboter über die Kamera empfangen, ein mentales Modell der Umwelt zu extrahieren.

  • Forschende am MIT entwickeln ein Modell, dass Robotern eine menschenähnliche räumliche Wahrnehmung beibringen soll.

Wären wir nicht alle dankbar für ein wenig Hilfe im Haushalt, vor allem, wenn diese Hilfe in Form eines intelligenten, anpassungsfähige Roboters käme? Nun gibt es ja die One-Trick-Ponys der Gerätewelt. Aber die MIT-Ingenieure stellen sich Roboter eher wie Haushaltshilfen vor, die in der Lage sind, vielfältige und komplexe Befehle vom Typ Alexa zu befolgen, wie zum Beispiel "Geh in die Küche und hol mir einen Kaffee". Um solche hochrangigen Aufgaben ausführen zu können, müssen Roboter nach Ansicht der Forscher über eine räumliche Wahrnehmung verfügen, die der des Menschen entspricht.

"Um eine Entscheidung in der Welt treffen zu können, braucht man ein mentales Modell der Umwelt um einen herum", sagt Luca Carlone, Assistenzprofessor für Luft- und Raumfahrt am MIT. "Das ist für den Menschen etwas so Müheloses. Aber für Roboter ist es ein schmerzhaft schwieriges Problem, bei dem es darum geht, Pixelwerte, die sie durch eine Kamera sehen, in ein Verständnis der Welt umzuwandeln.

Jetzt haben Carlone und seine Studenten eine räumliche Wahrnehmung für Roboter dargestellt, die der Art und Weise nahekommt, wie Menschen die Welt wahrnehmen und sich in ihr bewegen.  Das neue Modell ermöglicht es einem Roboter, schnell eine 3D-Karte seiner Umgebung zu erstellen, die auch Objekte und ihre semantischen Bezeichnungen (zum Beispiel einen Stuhl gegenüber einem Tisch) sowie Menschen, Räume, Wände und andere Strukturen enthält, die der Roboter wahrscheinlich in seiner Umgebung sieht.

Das Modell ermöglicht es dem Roboter auch, relevante Informationen aus der 3D-Karte zu extrahieren, den Standort von Objekten und Räumen oder die Bewegung von Personen auf seinem Weg abzufragen. "Diese komprimierte Darstellung der Umgebung ist nützlich, weil unser Roboter damit schnell Entscheidungen treffen und seinen Weg planen kann", sagt Carlone. "Dies ist nicht allzu weit von dem entfernt, was wir als Menschen tun. Wenn Sie einen Weg von Ihrem Zuhause zum MIT planen müssen, planen Sie nicht jede einzelne Position, die Sie einnehmen müssen. Man denkt einfach auf der Ebene von Straßen und Orientierungspunkten, wodurch man seine Route schneller planen kann.

Abgesehen von Haushaltshilfen, so Carlone, könnten Roboter, die dieses neuartige mentale Modell der Umgebung übernehmen, auch für andere hochrangige Aufgaben geeignet sein, wie zum Beispiel die Arbeit Seite an Seite mit Menschen in einer Fabrikhalle oder die Erkundung eines Katastrophengebietes für Überlebende. Er und seine Studenten, darunter der Hauptautor und MIT-Absolvent Antoni Rosinol, werden auf der Robotics: Science and Systems  ihre Ergebnisse vorstellen.

Ein Mapping-Mix

Gegenwärtig ist die Robotervision und -navigation vor allem auf zwei Wegen vorangekommen: 3D-Kartierung, die es Robotern ermöglicht, ihre Umgebung bei der Erkundung in Echtzeit dreidimensional zu rekonstruieren; und semantische Segmentierung, die einem Roboter dabei hilft, Merkmale in seiner Umgebung als semantische Objekte zu klassifizieren, wie zum Beispiel ein Auto gegenüber einem Fahrrad, was bisher meist auf 2D-Bildern erfolgt. 

Das neue Modell für die räumliche Wahrnehmung von Carlone und Rosinol ist das erste, das eine 3D-Karte der Umgebung in Echtzeit erzeugt und gleichzeitig Objekte, Personen (die im Gegensatz zu Objekten dynamisch sind) und Strukturen innerhalb dieser 3D-Karte kennzeichnet.  Die Schlüsselkomponente des neuen Modells des Teams ist Kimera, eine Open-Source-Bibliothek, die das Team zuvor entwickelt hat, um gleichzeitig ein geometrisches 3D-Modell einer Umgebung zu erstellen und dabei die Wahrscheinlichkeit zu kodieren, dass ein Objekt zum Beispiel ein Stuhl oder ein Schreibtisch ist.  "Wie das Fabelwesen, das eine Mischung aus verschiedenen Tieren ist, sollte Kimera eine Mischung aus Kartographie und semantischem Verständnis in 3D sein", sagt Carlone.

Jetzt Newsletter abonnieren

Verpassen Sie nicht unsere besten Inhalte

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Kimera arbeitet, indem sie Bildströme von der Kamera eines Roboters sowie Trägheitsmessungen von bordeigenen Sensoren aufnimmt, um die Bewegungsbahn des Roboters oder der Kamera abzuschätzen und die Szene als 3D-Netz zu rekonstruieren, und das in Echtzeit.

Um ein semantisches 3D-Netz zu erzeugen, verwendet Kimera ein bestehendes neuronales Netz, das auf Millionen von Bildern aus der realen Welt trainiert wurde. Es dient dazu, die Beschreibung jedes Pixels vorherzusagen, und projiziert dann diese Labels in 3D mit einer als Ray-Casting bekannten Technik, die in der Computergrafik für das Echtzeit-Rendering verwendet wird. Das Ergebnis ist eine Karte der Umgebung eines Roboters, die einem dichten, dreidimensionalen Netz ähnelt, in dem jedes Gesicht als Teil der Objekte, Strukturen und Personen in der Umgebung farbcodiert ist.

Räumliche Wahrnehmung: Szenen mit Layern

Würde sich ein Roboter allein auf dieses Netz verlassen, um durch seine Umgebung zu navigieren, wäre dies eine rechenaufwändige und zeitraubende Aufgabe. Daher bauten die Forscher auf Kimera auf und entwickelten Algorithmen, um aus Kimeras anfänglichem, sehr dichten, semantischen 3D-Netz dynamische 3D-"Szenengraphen" zu konstruieren.  Szenengraphen sind beliebte Computergrafikmodelle, mit denen komplexe Szenen manipuliert und gerendert werden und die typischerweise in Game-Engines zur Darstellung von 3D-Umgebungen verwendet werden.

Im Falle der dynamischen 3D-Szenengraphen abstrahieren oder zerlegen die zugehörigen Algorithmen Kimeras detailliertes semantisches 3D-Netz in verschiedene semantische Schichten, so dass ein Roboter eine Szene durch eine bestimmte Schicht oder Linse "sehen" kann. Die Schichten entwickeln sich in der Hierarchie von Objekten und Personen über offene Räume und Strukturen wie Wände und Decken bis hin zu Räumen, Korridoren und Hallen und schließlich zu ganzen Gebäuden.

(Ein dynamischer 3D-Szenengraph einer Büroumgebung. Die Knoten im Graphen stellen Entitäten in der Umgebung dar (Menschen, Objekte, Räume, Strukturen), während Kanten Beziehungen zwischen Entitäten darstellen.Bild: Mit freundlicher Genehmigung der Forscher/MIT)

Laut Carlone vermeidet diese Schichtdarstellung, dass ein Roboter Milliarden von Punkten und Flächen im ursprünglichen 3D-Netz sinnvoll darstellen muss. Innerhalb der Schicht aus Objekten und Menschen konnten die Forscher auch Algorithmen entwickeln, die die Bewegung und die Gestalt von Menschen in der Umgebung in Echtzeit verfolgen.

Das Team testete ihr neues Modell in einem fotorealistischen Simulator, der in Zusammenarbeit mit dem MIT Lincoln Laboratory entwickelt wurde und einen Roboter simuliert, der durch eine dynamische Büroumgebung navigiert, in der sich Menschen bewegen. "Wir ermöglichen Robotern im Wesentlichen mentale Modelle, die denen der Menschen ähnlich sind", sagt Carlone. "Dies kann sich auf viele Anwendungen auswirken, darunter selbstfahrende Autos, Such- und Rettungsdienste, kollaborative Fertigung und häusliche Robotik.

AR-Brillen, die sich der Umwelt bewusst sind

Ein weiterer Bereich ist die virtuelle und erweiterte Realität (AR). Stellen Sie sich vor, Sie tragen eine AR-Brille, die unseren Algorithmus ausführt: Die Brille könnte Ihnen bei Fragen wie "Wo habe ich meine rote Tasse gelassen?" und "Was ist der nächstgelegene Ausgang? Sie können sich das als eine Alexa vorstellen, die sich ihrer Umgebung bewusst ist und Objekte, Menschen und ihre Beziehungen versteht.

"Unser Ansatz wurde gerade erst möglich dank der jüngsten Fortschritte beim Deep Learning und der jahrzehntelangen Forschung zur gleichzeitigen Lokalisierung und Kartierung", sagt Rosinol. "Mit dieser Arbeit machen wir den Sprung in eine neue Ära der Roboterwahrnehmung, die als Raum-KI bezeichnet wird, die noch in den Kinderschuhen steckt, aber ein großes Potenzial in der Robotik und in der virtuellen und erweiterten Realität im großen Maßstab besitzt.

Diese Forschung wurde zum Teil vom Army Research Laboratory, dem Office of Naval Research und dem MIT Lincoln Laboratory finanziert.

Bild oben: MIT-Forscher haben ein Modell für räumliche Wahrnehmung bei Robotern entwickelt, die der Art und Weise nachempfunden ist, wie Menschen die Welt wahrnehmen und sich in ihr bewegen. Die Schlüsselkomponente des neuen Modells des Teams ist Kimera, eine Open-Source-Bibliothek, die das Team zuvor entwickelt hat, um gleichzeitig ein geometrisches 3D-Modell einer Umgebung zu konstruieren. Kimera baut ein dichtes semantisches 3D-Netz einer Umgebung auf und kann Menschen in der Umgebung verfolgen. Die Abbildung zeigt eine Multi-Frame-Aktionssequenz eines Menschen, der sich in der Szene bewegt. Bildquelle: MIT/Mit freundlicher Genehmigung der Forscher

Paper: “3D Dynamic scene graphs: Actionable spatial perception with places, objects, and humans”: https://roboticsconference.org/program/papers/79/

Erfahren Sie hier mehr über eine E-Skin für Roboter, die den menschlichen Tastsinn übertrifft.

Lesen Sie auch: "3D-Simulationsplattform: Wie Roboter zur Höchstform auflaufen"