Microsoft Research stellt mit GroundedPlanBench einen Benchmark für Vision-Language-Modelle vor, der prüft, ob Modelle Roboteraktionen und deren räumliche Ausführung gemeinsam planen können. Mit dem Trainingsverfahren V2GP wurden in Benchmark- und Robotiktests Verbesserungen gegenüber entkoppelten Ansätzen berichtet, auch wenn lange Aufgabenfolgen und implizite Anweisungen schwierig bleiben.
IBM Research beschreibt mit VAKRA einen ausführbaren, tool-basierten Benchmark für KI-Agenten in unternehmensähnlichen Umgebungen. Der Beitrag erläutert Aufbau, Auswertung und Fehlermuster über vier Fähigkeitsbereiche hinweg, darunter API-Auswahl, Multi-Hop-Reasoning, Dokumentabruf und Policy-Vorgaben.
Der Hugging Face Blog zeigt anhand von Visual Document Retrieval, wie sich Qwen/Qwen3-VL-Embedding-2B mit Sentence Transformers auf domänenspezifische multimodale Daten finetunen lässt. Im Beispiel steigt NDCG@10 auf dem Evaluationssatz von 0,888 beim Basismodell auf 0,947 beim finetunten Modell; außerdem werden Training, Loss-Funktionen, Evaluation und Optionen für multimodale Reranker beschrieben.
EcomRLVE-GYM überträgt den RLVE-Ansatz von Single-Turn-Rätseln auf Multi-Turn-E-Commerce-Dialoge mit Tools. Das Framework umfasst acht algorithmisch überprüfbare Umgebungen, eine 12-dimensionale Schwierigkeitsskala und erste Trainingsresultate mit Qwen 3 8B und DAPO.
Google macht das aktualisierte Gemini 2.0 Flash allgemein über die Gemini API in Google AI Studio und Vertex AI verfügbar. Gleichzeitig erscheinen Gemini 2.0 Pro Experimental für Coding und komplexe Prompts sowie Gemini 2.0 Flash-Lite als kosteneffizientes Modell in Public Preview.
Google stellt Gemini 2.0 Flash-Lite für den Produktionseinsatz in der Gemini API bereit, nutzbar in Google AI Studio und auf Vertex AI. Das Modell soll gegenüber Gemini 1.5 Flash bei Reasoning, Multimodalität, Mathematik und Faktentreue besser abschneiden und bei langen Kontextfenstern kostengünstiger sein.