28.09.2023 – Kategorie: Forschung
KI-Modell für Computer-Vision: Was die semantische Segmentierung beschleunigt
Ein neuartiges, von Forschenden am MIT entwickeltes KI-Modell beschleunigt hoch aufgelöste Computer-Vision-Aufgaben.
- Ein neuartiges, von Forschenden am MIT entwickeltes KI-Modell beschleunigt hochauflösende Computer-Vision.
- Das System könnte die Bildqualität beim Videostreaming verbessern oder autonomen Fahrzeugen helfen, Gefahren im Straßenverkehr in Echtzeit zu erkennen.
Ein autonomes Fahrzeug muss Objekte, auf die es stößt, schnell und genau erkennen. Das kann ein an der Ecke geparkter Lieferwagen sein, oder ein Radfahrer, der auf eine Kreuzung zurast. Zu diesem Zweck könnte das Fahrzeug ein leistungsfähiges Computer-Vision-Modell verwenden. Somit könnte es jedes Pixel in einem hochauflösenden Bild dieser Szene kategorisieren. Es verliert keine Objekte aus den Augen, die in einem Bild mit geringerer Qualität verdeckt sein könnten. Diese Aufgabe, als semantische Segmentierung bezeichnet, ist jedoch komplex und erfordert bei hochauflösenden Bildern einen enormen Berechnungsaufwand.
Effizienteres Computer-Vision-Modell reduziert den Rechenaufwand
Forschende des MIT, des MIT-IBM Watson AI Lab und anderer Forschungseinrichtungen haben ein effizienteres Modell für die Bildverarbeitung entwickelt. Es reduziert den Rechenaufwand für diese Aufgabe erheblich. Ihr Modell kann die semantische Segmentierung in Echtzeit auf einem Gerät mit begrenzten Hardwareressourcen durchführen. Dazu gehören zum Beispiel Bordcomputer, mit denen autonome Fahrzeuge Entscheidungen in Sekundenbruchteilen treffen können.
Aktuelle semantische Modelle für die semantische Segmentierung lernen direkt die Interaktion zwischen den einzelnen Pixelpaaren in einem Bild. Daher steigt der Berechnungsumfang mit zunehmender Bildauflösung im Quadrat. Aus diesem Grund sind diese Modelle zwar genau, aber zu langsam, um hochauflösende Bilder in Echtzeit auf einem Edge-Gerät wie einem Sensor oder einem Mobiltelefon zu verarbeiten.
Die MIT-Forschenden entwarfen einen neuen Baustein für semantische Segmentierungsmodelle, der dieselben Fähigkeiten wie diese hochmodernen Modelle besitzt, jedoch mit nur linearer Rechenkomplexität und Hardware-effizienten Operationen.
Das Ergebnis ist eine neue Modellreihe für hochauflösende Computer-Vision. Sie arbeitet bis zu neunmal schneller als bisherige Modelle, wenn sie auf einem mobilen Gerät eingesetzt wird. Wichtig ist, dass diese neue Modellreihe die gleiche oder eine bessere Genauigkeit aufweist als diese Alternativen.
Vision-basierte Aufgaben effizienter lösen
Diese Technik könnte nicht nur autonomen Fahrzeugen helfen, Entscheidungen in Echtzeit zu treffen. Auch die Effizienz anderer hochauflösender Computer-Vision-Aufgaben, wie zum Beispiel die Segmentierung medizinischer Bilder, ließe sich verbessern.
„Während Forscher schon seit langem herkömmliche Bildtransformatoren verwenden, die erstaunliche Ergebnisse liefern, möchten wir, dass man auch den Effizienzaspekt dieser Modelle beachtet. Unsere Arbeit zeigt, dass es möglich ist, den Rechenaufwand drastisch zu reduzieren, so dass diese Echtzeit-Bildsegmentierung lokal auf einem Gerät erfolgen kann“, sagt Song Han, außerordentlicher Professor im Fachbereich Elektrotechnik und Informatik (EECS), Mitglied des MIT-IBM Watson AI Lab und Hauptautor des Papiers, das das neue Modell beschreibt.
Neben ihm haben Han Cai, ein EECS-Absolvent, Junyan Li, ein Student an der Zhejiang University, Muyan Hu, ein Student an der Tsinghua University, und Chuang Gan, ein leitender Forschungsmitarbeiter am MIT-IBM Watson AI Lab, an dem Papier mitgearbeitet. Die Forschungsergebnisse werden auf der International Conference on Computer Vision vorgestellt.
Eine vereinfachte Lösung
Die Kategorisierung jedes Pixels in einem hochauflösenden Bild, das Millionen von Pixeln enthalten kann, gestaltet sich sehr schwierig für ein maschinelles Lernmodell. Ein leistungsfähiger neuer Modelltyp, ein so genannter Vision-Transformer, wurde kürzlich erfolgreich eingesetzt.
Transformer hat man ursprünglich für die Verarbeitung natürlicher Sprache entwickelt. In diesem Zusammenhang kodieren sie jedes Wort in einem Satz als Token. Sie erstellen dann eine Aufmerksamkeitskarte, die die Beziehungen zwischen jedem Token und allen anderen Token erfasst. Diese Aufmerksamkeitskarte hilft dem Modell, den Kontext zu verstehen, wenn es Vorhersagen trifft.
Nach dem gleichen Konzept zerlegt ein Bildumwandler ein Bild in einzelne Pixel und kodiert jedes kleine Pixel in ein Token, bevor er eine Aufmerksamkeitskarte erstellt. Bei der Erstellung dieser Aufmerksamkeitskarte verwendet das Modell eine Ähnlichkeitsfunktion, die direkt die Interaktion zwischen den einzelnen Pixelpaaren erlernt. Auf diese Weise entwickelt das Modell ein so genanntes globales rezeptives Feld. Es kann also auf alle relevanten Teile des Bildes zugreifen.
Da ein hochauflösendes Bild Millionen von Pixeln enthalten kann, die in Tausende von Feldern unterteilt sind, wird die Aufmerksamkeitskarte schnell riesig. Aus diesem Grund steigt der Rechenaufwand mit zunehmender Auflösung des Bildes im Quadrat.
Nichtlineare Ähnlichkeitsfunktion durch lineare ersetzt
In ihrer neuen Modellreihe mit der Bezeichnung EfficientViT haben die MIT-Forscher einen einfacheren Mechanismus zur Erstellung der Aufmerksamkeitskarte verwendet, indem sie die nichtlineare Ähnlichkeitsfunktion durch eine lineare Ähnlichkeitsfunktion ersetzt haben. So können sie die Reihenfolge der Operationen umstellen, um die Gesamtzahl der Berechnungen zu verringern, ohne die Funktionalität zu verändern und das globale rezeptive Feld zu verlieren. Mit ihrem Modell wächst der für eine Vorhersage erforderliche Rechenaufwand linear mit der Auflösung des Bildes.
„Aber es gibt kein Free Lunch. Die lineare Aufmerksamkeit erfasst nur den globalen Kontext des Bildes, wodurch lokale Informationen verloren gehen, was die Genauigkeit verschlechtert“, sagt Han.
Credits: Still mit freundlicher Genehmigung der Forschenden
Modell lässt sich auch für Computer-Vision-Aufgaben wie die Bildklassifizierung einsetzen
Um diesen Genauigkeitsverlust auszugleichen, fügten die Forscher zwei zusätzliche Komponenten in ihr Modell ein, die jeweils nur einen geringen Rechenaufwand verursachen. Eines dieser Elemente unterstützt das Modell bei der Erfassung lokaler Merkmalsinteraktionen. Das mildert die Schwäche der linearen Funktion bei der Extraktion lokaler Informationen. Das zweite, ein Modul, das multiskaliges Lernen ermöglicht, hilft dem Modell, sowohl große als auch kleine Objekte zu erkennen. „Der kritischste Teil hier ist, dass wir die Leistung und die Effizienz sorgfältig ausbalancieren müssen“, sagt Cai.
EfficientViT wurde mit einer Hardware-freundlichen Architektur entwickelt. Somit lässt es sich leichter auf verschiedenen Arten von Geräten wie Virtual-Reality-Headsets oder Edge-Computern in autonomen Fahrzeugen ausführen. Ihr Modell ließe sich auch auf andere Computer-Vision-Aufgaben, wie die Bildklassifizierung, anwenden.
Vereinfachung der semantischen Segmentierung
Als sie ihr Modell an Datensätzen testeten, die für die semantische Segmentierung verwendet werden, stellten sie fest, dass es auf einem Nvidia-Grafikprozessor (GPU) bis zu neunmal schneller arbeitete als andere gängige Vision-Transformer-Modelle, und das bei gleicher oder besserer Genauigkeit.
„Jetzt können wir das Beste aus beiden Welten nutzen und den Rechenaufwand so weit reduzieren, dass wir es auf mobilen und Cloud-Geräten einsetzen können“, sagt Han.
Aufbauend auf diesen Ergebnissen wollen die Forschenden diese Technik anwenden, um generative maschinelle Lernmodelle zu beschleunigen, die beispielsweise zur Erzeugung neuer Bilder verwendet werden. Außerdem wollen sie EfficientViT für andere Bildverarbeitungsaufgaben weiter ausbauen.
Großes Potenzial für reale Anwendungen
„Effiziente Transformationsmodelle, die vom Team von Professor Song Han entwickelt wurden, bilden heute das Rückgrat modernster Techniken für verschiedene Aufgaben des maschinellen Sehens, einschließlich Erkennung und Segmentierung“, sagt Lu Tian, Senior Director of AI Algorithms bei AMD, Inc. und nicht an dieser Arbeit beteiligt. „Ihre Forschung zeigt nicht nur die Effizienz und Leistungsfähigkeit von Transformatoren, sondern auch deren immenses Potenzial für reale Anwendungen, wie die Verbesserung der Bildqualität in Videospielen.
„Modellkomprimierung und leichtgewichtiges Modelldesign sind entscheidende Forschungsthemen für effizientes KI-Computing, insbesondere im Zusammenhang mit großen Grundmodellen. Die Gruppe von Professor Song Han hat bemerkenswerte Fortschritte bei der Komprimierung und Beschleunigung moderner Deep-Learning-Modelle gemacht, insbesondere bei Vision-Transformern“, fügt Jay Jackson, Global Vice President für künstliche Intelligenz und maschinelles Lernen bei Oracle, hinzu, der an dieser Forschung nicht beteiligt war. „Oracle Cloud Infrastructure hat sein Team dabei unterstützt, diese wichtige Forschung in Richtung effizienter und umweltfreundlicher KI voranzutreiben.“
Bild oben: Ein maschinelles Lernmodell für hochauflösende Computer-Vision könnte rechenintensive Bildverarbeitungsanwendungen, wie autonomes Fahren oder medizinische Bildsegmentierung, auf Endgeräten ermöglichen. Das Bild zeigt eine künstlerische Interpretation der Technologie für autonomes Fahren. Bild: MIT News
Weitere Informationen: https://www.mit.edu/
Erfahren Sie hier mehr über eine KI-Methode für die digitale Nachbearbeitung von Bildern.
Lesen Sie auch: „3D-Visualisierung: Plattformübergreifende und offene API für 3D-Rendering-Engines“
.
Teilen Sie die Meldung „KI-Modell für Computer-Vision: Was die semantische Segmentierung beschleunigt“ mit Ihren Kontakten: