GroundedPlanBench untersucht räumlich verankerte Langzeitplanung für Robotermanipulation

Microsoft Research beschreibt mit GroundedPlanBench einen Benchmark für räumlich verankerte Langzeitplanung bei der Robotermanipulation. Er soll messen, ob Vision-Language-Modelle nicht nur planen können, welche Aktionen ein Roboter ausführen soll, sondern zugleich auch bestimmen, wo diese Aktionen stattfinden müssen. Anlass ist, dass verbreitete zweistufige Ansätze die Planung in natürlicher Sprache von der räumlichen Ausführung trennen und bei langen, komplexen Aufgaben durch Mehrdeutigkeiten oder Halluzinationen in den Beschreibungen an Grenzen stoßen.

Ergänzend wurde das Framework Video-to-Spatially Grounded Planning (V2GP) entwickelt. Es wandelt Videos von Roboterdemonstrationen in Trainingsdaten um, damit Modelle Planung und räumliche Zuordnung gemeinsam lernen können. In den beschriebenen Auswertungen mit Open- und Closed-Source-VLMs zeigte sich, dass räumlich verankerte Planung für lange und komplexe Aufgaben weiterhin anspruchsvoll ist. Zugleich verbesserte V2GP sowohl die Planung als auch das Grounding in Benchmark- und Realweltversuchen mit Robotern.

Aufbau von GroundedPlanBench

Der Benchmark basiert auf 308 Szenen aus dem Distributed Robot Interaction Dataset (DROID), einer Sammlung von Aufzeichnungen robotischer Aufgaben. Für jede Szene wurden mit Fachleuten Aufgaben definiert, die ein Roboter ausführen kann. Jede Aufgabe liegt in zwei Varianten vor: als explizite Anweisung mit klar benannten Aktionen und als implizite Anweisung, die das Ziel allgemeiner beschreibt.

Die Pläne wurden in vier Grundaktionen zerlegt: grasp, place, open und close. Jede Aktion ist mit einer konkreten Position im Bild verknüpft. Für grasp-, open- und close-Aktionen wurde dazu ein Rahmen um das Zielobjekt verwendet, für place-Aktionen ein Rahmen für den Ablageort. Insgesamt umfasst GroundedPlanBench 1.009 Aufgaben. Davon enthalten 345 Aufgaben 1 bis 4 Aktionen, 381 Aufgaben 5 bis 8 Aktionen und 283 Aufgaben 9 bis 26 Aktionen.

V2GP und die Trainingsdaten

V2GP erkennt zunächst anhand aufgezeichneter Gripper-Signale die Zeitpunkte, an denen der Roboter mit Objekten interagiert. Anschließend erzeugt ein multimodales Sprachmodell eine Textbeschreibung des manipulierten Objekts. Auf dieser Basis verfolgt das System das Objekt über das Video hinweg mit SAM3, einem Open-Vocabulary-Modell für Bild- und Videosegmentierung von Meta. Aus den Tracking-Ergebnissen werden dann räumlich verankerte Pläne erzeugt, indem die Position des Objekts beim Greifen und beim Platzieren bestimmt wird.

Auf diese Weise entstanden 43.000 räumlich verankerte Pläne unterschiedlicher Länge: 34.646 Pläne mit 1 bis 4 Aktionen, 4.368 mit 5 bis 8 Aktionen und 4.448 mit 9 bis 26 Aktionen.

Vergleich mit entkoppelten Ansätzen

Für die Bewertung in realen Robotik-Szenarien wurde Qwen3-VL als Basismodell verwendet. Zunächst wurde es zusammen mit weiteren proprietären Modellen auf GroundedPlanBench ohne aufgabenspezifisches Training getestet. Danach wurde Qwen3-VL mit V2GP-Daten feinabgestimmt und mit einem entkoppelten Verfahren verglichen, bei dem Planung und Grounding getrennt ablaufen.

In diesem Aufbau erzeugte zunächst ein VLM einen Plan in natürlicher Sprache; dafür kamen GPT-5.2 oder Qwen3-VL-4B zum Einsatz. Anschließend übernahm Embodied-R1 das Spatial Grounding und übersetzte die Pläne in ausführbare Signale. Embodied-R1 wurde gewählt, weil das Modell auf embodied reasoning und point-based localization trainiert wurde und damit auf räumliche Zuordnung in Bildern ausgerichtet ist.

Die Auswertung zeigt eine zentrale Schwäche entkoppelter Verfahren: mehrdeutige Sprachbeschreibungen. In einem Beispiel bezeichnete Qwen3-VL-4B bei vier Servietten in einer Szene alle Greifaktionen als „napkin on the table“, sodass Embodied-R1 jede Aktion derselben Serviette zuordnete. GPT-5.2 erzeugte genauere Formulierungen wie „top-left napkin“ oder „upper-center napkin“, diese blieben für eine zuverlässige Unterscheidung aber ebenfalls zu unpräzise, sodass wieder dasselbe Objekt gewählt wurde. Laut Beitrag verschärft sich dieses Problem in unübersichtlichen realen Umgebungen. Der gemeinsam ausgeführte Ansatz für Planung und Grounding innerhalb eines einzelnen Modells verbesserte dagegen sowohl die Planung als auch das räumliche Grounding.

Über alle getesteten Open- und Closed-Source-VLMs hinweg erwiesen sich mehrstufige Planung und implizite Anweisungen als schwierig. Die Feinabstimmung von Qwen3-VL-4B und Qwen3-VL-32B mit V2GP führte laut den dargestellten Ergebnissen zu deutlichen Verbesserungen bei der räumlich verankerten Planung.

Als weiterer möglicher Schritt wird die Kombination räumlich verankerter Planung mit World Models genannt. Damit könnten Roboter nicht nur entscheiden, was zu tun ist und wo gehandelt werden soll, sondern auch die Folgen von Aktionen vor der Ausführung abschätzen. Zugleich bleibt als Einschränkung bestehen, dass längere Aktionsfolgen und indirekt formulierte Ziele weiterhin schwierig sind.

Quelle

Originalquelle: Microsoft Research

Recent Articles

spot_img

Related Stories

Leave A Reply

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein

Stay on op - Ge the daily news in your inbox