Computer versteht Körpersprache

Wissenschaftler am Robotics Institute der Carnegie Mellon University haben einen Computer dazu befähigt, mit einem Video in Echtzeit Körperposen und Bewegungen von zahlreichen Menschen zu verstehen, sowie die Hand- und Fingerhaltung der Personen.  Das neue Verfahren entstand mit der Unterstützung von Panoptic Studio, einer zweistöckigen Kuppel, ausgestattet mit 500 Videokameras, und den Einsichten aus Experimenten in dieser Einrichtung, die es nun möglich machen, die Haltung einer Personengruppe mit einer einzigen Kamera und einem Notebook zu erfassen.

Yaser Sheikh, Professor für Robotik, ist sich sicher, dass die Methoden, um menschliche Formen und Bewegungen in 2D zu verfolgen, neue Möglichkeiten für Menschen und Maschinen eröffneten, miteinander zu kommunizieren und mittels Maschinen die Umgebung besser erkunden zu können. Die Fähigkeit, Handhaltungen zu erkennen, könnte Menschen in einer neuen und natürlicheren Form mit Computern interagieren lassen, etwa durch Fingerzeige auf Gegenstände.

Das Erspüren der Nuancen in der nonverbalen Kommunikation zwischen Personen wird es Robotern ermöglichen, in sozialen Räumen zu arbeiten und zu erfahren, was die Menschen um sie herum tun, in welcher Stimmung sie sind und ob sie gerade bei ihren Tätigkeiten unterbrochen werden können oder wollen. Ein selbstfahrendes Fahrzeug könnte über die Körpersprache frühzeitig eine Warnung erhalten, wenn ein Fußgänger gerade auf die Straße zu treten beabsichtigt. Maschinen, die menschliches Verhalten angemessen interpretieren, könnten auch neue Ansätze in der Verhaltensdiagnostik und der Rehabilitation bei Autismus, Dyslexie oder Depression in die Wege leiten. Sheikh gibt zu bedenken, dass wir fast genauso viel mit dem Körper kommunizierten wie mit der Stimme. Aber für ersteres seien die Computer blind.

In der Sportanalyse wird sich mit dem Erkennen der Körperhaltung nicht nur die Position eines jeden  Spielers auf dem Feld feststellen lassen, wie es jetzt schon der Fall ist, sondern auch,  was die Spielermit ihren Armen, Beinen und Köpfen zu jedem Zeitpunkt machen. Entsprechende Verfahren ließen sich für Live-Events oder bereits vorhandene Videos einsetzen.

Code freigegeben, Interesse von Unternehmen

Um weitere Entwicklungen und Anwendungen anzuregen haben die Wissenschaftler den Code sowohl für die Einschätzung von mehreren Personen als auch von Handstellungen freigegeben. Mehr als 20 Unternehmen, auch aus der Automobilbranche, interessieren sich für die Lizenzierung der Technologie, wie Sheikh sagt. Er und seine Mitarbeiter haben die Ergebnisse ihrer Arbeit an der CVPR 2017, einer Konferenz für Computervisualisierung und Mustererkennung Ende Juli in Honolulu vorgestellt.

Viele Personen in Echtzeit zu tracken, besonders in sozialen Situationen, wo sie in Kontakt zueinander sind, bereitet einiges Kopfzerbrechen. Einfach Programm zu verwenden, welche die Haltung einer Person verfolgen, funktioniert nicht besonders gut, wenn für jede Person in der Gruppe angewandt, besonders bei einer großen Gruppe nicht. Sheikh und sein Team setzten auf einen „Bottom-up“-Ansatz, der erst alle Körperteile in einer Szene, also Arme, Beine, Gesicher usw., lokalisiert und dann diese Teile bestimmten Personen zuordnet.

Die Hürden für die Handerkennung sind höher. Da Menschen ihre Hände gebrauchen, um Gegenstände zu ergreifen oder zu gestikulieren, kann eine Kamera unmöglich alle Teile der Hand gleichzeitig sehen. Anders als für Gesicht und Körper gibt es keine großen Datensätze von Handbildern, in denen die Teile und Positionen der Hände annotiert sind.

500 Ansichten aus einer Aufnahme

Aber zu jedem Bild, das nur eine Teilansicht der Hand liefere, existiere oft ein anderes aus einem anderen Winkel aufgenommenes mit einer kompletten oder komplementären Ansicht, so Hanbyul Joo, Ph. D. Student der Robotik. An dieser Stelle konnten die Forscher das Panoptic-Studio mit den vielen Kameras ins Spiel bringen. Eine einzelne Aufnahme erzeugt 500 Ansichten der Hand einer Person mit automatischen Annotationen. Das Panoptic-Studio wird nun genutzt, um Körper, Gesicht und Handerkennung durch ein straffes Training zu verbessern. Sheikh betont, dass der Wechsel von 2D- zu 3D-Modellen für die Möglichkeit in der Einrichtung annotierte Bilder automatisch aufzunehmen, entscheidend sei.

Video: Zhe Cao, Tomas Simon, Shih-En Wei, and Yaser Sheikh, 
"Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields." CVPR (2017).:

https://www.youtube.com/watch?v=LrCO8QcXfAY

0
RSS Feed

Hat Ihnen der Artikel gefallen?
Abonnieren Sie doch unseren Newsletter und verpassen Sie keinen Artikel mehr.

Mit einem * gekennzeichnete Felder sind Pflichtfelder!

Neuen Kommentar schreiben

Entdecken Sie die Printmagazine des WIN-Verlags