KI Modelle

GroundedPlanBench untersucht räumlich verankerte Langzeitplanung für Robotermanipulation

Microsoft Research stellt mit GroundedPlanBench einen Benchmark für Vision-Language-Modelle vor, der prüft, ob Modelle Roboteraktionen und deren räumliche Ausführung gemeinsam planen können. Mit dem Trainingsverfahren V2GP wurden in Benchmark- und Robotiktests Verbesserungen gegenüber entkoppelten Ansätzen berichtet, auch wenn lange Aufgabenfolgen und implizite Anweisungen schwierig bleiben.

VAKRA analysiert Reasoning, Tool-Nutzung und Fehlermuster von KI-Agenten

IBM Research beschreibt mit VAKRA einen ausführbaren, tool-basierten Benchmark für KI-Agenten in unternehmensähnlichen Umgebungen. Der Beitrag erläutert Aufbau, Auswertung und Fehlermuster über vier Fähigkeitsbereiche hinweg, darunter API-Auswahl, Multi-Hop-Reasoning, Dokumentabruf und Policy-Vorgaben.

Multimodale Embedding- und Reranker-Modelle mit Sentence Transformers trainieren und finetunen

Der Hugging Face Blog zeigt anhand von Visual Document Retrieval, wie sich Qwen/Qwen3-VL-Embedding-2B mit Sentence Transformers auf domänenspezifische multimodale Daten finetunen lässt. Im Beispiel steigt NDCG@10 auf dem Evaluationssatz von 0,888 beim Basismodell auf 0,947 beim finetunten Modell; außerdem werden Training, Loss-Funktionen, Evaluation und Optionen für multimodale Reranker beschrieben.

EcomRLVE-GYM erweitert RLVE auf verifizierbare E-Commerce-Agenten

EcomRLVE-GYM überträgt den RLVE-Ansatz von Single-Turn-Rätseln auf Multi-Turn-E-Commerce-Dialoge mit Tools. Das Framework umfasst acht algorithmisch überprüfbare Umgebungen, eine 12-dimensionale Schwierigkeitsskala und erste Trainingsresultate mit Qwen 3 8B und DAPO.

Google stellt Gemini 2.0 Flash allgemein bereit und ergänzt Pro Experimental sowie Flash-Lite

Google macht das aktualisierte Gemini 2.0 Flash allgemein über die Gemini API in Google AI Studio und Vertex AI verfügbar. Gleichzeitig erscheinen Gemini 2.0 Pro Experimental für Coding und komplexe Prompts sowie Gemini 2.0 Flash-Lite als kosteneffizientes Modell in Public Preview.

Gemini 2.0 Flash-Lite ist allgemein in der Gemini API verfügbar

Google stellt Gemini 2.0 Flash-Lite für den Produktionseinsatz in der Gemini API bereit, nutzbar in Google AI Studio und auf Vertex AI. Das Modell soll gegenüber Gemini 1.5 Flash bei Reasoning, Multimodalität, Mathematik und Faktentreue besser abschneiden und bei langen Kontextfenstern kostengünstiger sein.

Recent Articles

Stay on op - Ge the daily news in your inbox

spot_img