MIT will Roboter wie GenAI-Chatbots trainieren
width="1811" height="1019" sizes="(max-width: 1811px) 100vw, 1811px">Bislang steht dem breiten Einsatz von Robotern unter anderem das aufwändige Training im Wege. Das MIT will das ändern.thinkhubstudio – shutterstock.com
Roboter ermöglichen der verarbeitenden Industrie, dem Gesundheitswesen, der Landwirtschaft und anderen Branchen eine rapide Effizienzsteigerung und erlauben neue Funktionen. Eine Herausforderung bei der Inbetriebnahme neuer Roboter besteht jedoch darin, dass es schwierig, teuer und zeitaufwändig ist, sie für eine bestimmte Aufgabe zu trainieren. Und sind sie einmal trainiert, müssen sie bei jeder geringfügigen Änderung des Systems erneut trainiert werden.
Ein Teil des Trainings erfolgt durch Software-Codierung. Andere Methoden verwenden Lernen durch Nachahmung, bei dem eine Person einen Roboter (der während des Trainings im Wesentlichen als Marionette fungiert) fernsteuert, um Daten für dessen Bewegungen zu sammeln.
Die Schwierigkeit wird durch das Fehlen von Standards noch erhöht. Jeder Roboterhersteller verwendet seine eigene, spezialisierte Programmiersprache. Die dafür verwendeten Schnittstellen, insbesondere die „Programmierhandgeräte“, neudeutsch Teach Pendants, verfügen zudem in der Regel nicht über moderne Funktionen, wie man sie von den großen, nicht proprietären Softwareentwicklungsumgebungen kennt.
Nicht-existente Standards erhöhen aus offensichtlichen Gründen nicht nur die Komplexität, sondern auch die Kosten. Kurse zur Roboterprogrammierung können Tausende von Dollar kosten, und Unternehmen müssen oft viele Mitarbeiter auf mehreren Plattformen schulen.
Das MIT als Retter in der Not?
Um die enormen Probleme des Roboter-Trainings zu lösen, entwickeln MIT-Forscher nun eine radikale neue Methode namens Heterogeneous Pretrained Transformers, kurz HPTs. Das Konzept basiert in etwa auf dem gleichen Konzept der Large Language Models (LLMs), die derzeit den Boom der generativen KI vorantreiben.
HPTs arbeiten ebenfalls mit einem Transformer-Modell, um verschiedene Roboterdaten aus mehreren Quellen und Modalitäten zu verarbeiten. Zu diesen Daten fügt das Modell Input (der von der Bildverarbeitung und Roboterbewegungen stammt) in Form von Token hinzu und gleicht diesen an. All das wird von einem tatsächlichen LLM verarbeitet – je größer der Transformer, desto besser die Leistung des Roboters.
Im Fall von HPTs fügten die Forscher Informationen von echten physischen Robotern und Simulationsumgebungen sowie multimodale Daten (zum Beispiel von Bildsensoren oder Positionsgebern für Roboterarme) hinzu. Die Forscher erstellten einen umfangreichen Datensatz für das Pre-Training, der 52 Datensätze mit mehr als 200.000 Roboterbahnen umfasst. Dadurch benötigen HPTs weitaus weniger aufgabenspezifische Daten.
Und obwohl die HPT-Methode noch ganz am Anfang steht, stellten die Forscher fest, dass sie sowohl in Simulationen als auch in realen Experimenten um mehr als 20 Prozent besser abschnitt als das einfache Training von Grund auf. Ähnlich wie bei LLMs kann man bei zusätzlichen Daten und Optimierungen massive Fortschritte erwarten.
Einschränkungen beim HPT-Robotertraining
Obwohl HPTs vielversprechend sind, gibt es laut MIT aber noch Einschränkungen, die behoben werden müssen: Ähnlich wie selbst fortschrittlichere LLM-basierte Chatbots immer noch „halluzinieren“ können, benötigen HPTs einen Mechanismus, um schlechte Daten aus den Datensätzen herauszufiltern. Schließlich möchte niemand, dass ein leistungsstarker Industrieroboter „halluziniert“ und in der Fabrikhalle ausflippt.
So ähneln sich zwar LLMs und HPTs im Konzept, LLMs sind jedoch wegen der deutlich größeren Datensätze weitaus fortschrittlicher. Um die Methode zu industrialisieren, würden die Modelle riesige Mengen an – wahrscheinlich simulierten – Daten benötigen, die zu den realen Daten hinzugefügt werden. Das zeigt sich auch bei der Erfolgsquote der HPT-Forschung am MIT: Wie in den Anfängen der LLMs liegt sie derzeit im Durchschnitt bei unter 90 Prozent.
Um weiteres Potenzial im Bereich des robotergestützten Lernens zu erschließen, wollen die Forscher Trainingsmöglichkeiten jenseits des überwachten Lernens, etwa selbstüberwachtes oder unüberwachtes Lernen, untersuchen. So könnten Teleoperationsdaten, Simulationen, Videos von Menschen und Daten von eingesetzten Robotern dazu beitragen, die Datensätze mit vielfältigen, hochwertigen Daten zu erweitern. Die Forscher müssen dazu jedoch die optimale Mischung von Datentypen für höhere HPT-Erfolgsraten ermitteln.
Außerdem ist es erforderlich, dass die Forscher – und später die Industrie – standardisierte, virtuelle Testumgebungen schaffen, um es zu erleichtern, verschiedene Robotermodelle zu vergleichen. Zu einem späteren Zeitpunkt könnten die Roboter dann auch an komplexeren, realitätsnahen Aufgaben getestet werden. Dabei wären die Roboter in der Lage, beide Hände zu benutzen (bimanuell) oder sich zu bewegen (mobil), um längere, kompliziertere Aufgaben zu erledigen.
Die Vermessung des Robotergehirns
Wissenschaftler untersuchen auch, wie die Datenmenge, die Größe des „Gehirns“ (Modells) des Roboters und seine Leistung zusammenhängen. Entschlüsselt man diese Beziehung, wäre man in der Lage, optimierte, effizientere Roboter zu bauen.
Ein weiterer spannender Bereich: Robotern beizubringen, verschiedene Arten von Informationen zu verstehen. Dazu könnten 3D-Karten ihrer Umgebung, Berührungssensoren und sogar Daten von menschlichen Tätigkeiten beitragen. Durch die Kombination all dieser verschiedenen Inputs könnten Roboter lernen, ihre Umgebung besser zu verstehen – ähnlich, wie es Menschen tun.
All diese Forschungsideen zielen darauf ab, intelligentere, vielseitigere Roboter zu schaffen, die eine größere Bandbreite an Aufgaben in der realen Welt bewältigen können. Es geht darum, die derzeitigen Grenzen von Roboterlernsystemen zu überwinden und die Grenzen dessen, was Roboter leisten können, zu erweitern.
In einem MIT-Artikel über die Forschung heißt es entsprechend: „In Zukunft wollen die Forscher untersuchen, wie die Datenvielfalt die Leistung von HPT steigern könnte. Sie wollen HPT auch so verbessern, dass es wie GPT-4 und andere große Sprachmodelle ungelabelte Daten verarbeiten kann.“
Das Ziel besteht letztendlich darin, ein „universelles Robotergehirn“ zu erschaffen, das ohne zusätzliche Schulung heruntergeladen und verwendet werden kann. So weiß ein ungeschulter Mitarbeiter, der für die Arbeit am Fließband neu eingestellt wird, bereits, wie man Dinge aufhebt, herumläuft, Gegenstände bearbeitet und identifiziert Werkzeuge anhand ihres Aussehens . Ausgestattet mit diesen Grundkenntnissen fängt er langsam an und gewinnt durch Übung zusätzliche Fähigkeiten, was wiederum sein Selbstvertrauen steigert. Die Forscher des MIT gehen davon aus, dass HTP-trainierte Roboter auf die gleiche Weise funktionieren.
Natürlich gibt es Bedenken, was die Substitution menschlicher Arbeitskräfte durch Roboter angeht, aber das ist ein anderes Thema. (mb)
Hier finden Sie den kompletten Artikel: