KI Modelle

Forschung

GroundedPlanBench untersucht räumlich verankerte Langzeitplanung für Robotermanipulation

Microsoft Research stellt mit GroundedPlanBench einen Benchmark für Vision-Language-Modelle vor, der prüft, ob Modelle Roboteraktionen und deren räumliche Ausführung gemeinsam planen können. Mit dem Trainingsverfahren V2GP wurden in Benchmark- und Robotiktests Verbesserungen gegenüber entkoppelten Ansätzen berichtet, auch wenn lange Aufgabenfolgen und implizite Anweisungen schwierig bleiben.

admin - 24. April 2026

Forschung

VAKRA analysiert Reasoning, Tool-Nutzung und Fehlermuster von KI-Agenten

IBM Research beschreibt mit VAKRA einen ausführbaren, tool-basierten Benchmark für KI-Agenten in unternehmensähnlichen Umgebungen. Der Beitrag erläutert Aufbau, Auswertung und Fehlermuster über vier Fähigkeitsbereiche hinweg, darunter API-Auswahl, Multi-Hop-Reasoning, Dokumentabruf und Policy-Vorgaben.

admin - 24. April 2026

Forschung

Multimodale Embedding- und Reranker-Modelle mit Sentence Transformers trainieren und finetunen

Der Hugging Face Blog zeigt anhand von Visual Document Retrieval, wie sich Qwen/Qwen3-VL-Embedding-2B mit Sentence Transformers auf domänenspezifische multimodale Daten finetunen lässt. Im Beispiel steigt NDCG@10 auf dem Evaluationssatz von 0,888 beim Basismodell auf 0,947 beim finetunten Modell; außerdem werden Training, Loss-Funktionen, Evaluation und Optionen für multimodale Reranker beschrieben.

admin - 24. April 2026

Forschung

EcomRLVE-GYM erweitert RLVE auf verifizierbare E-Commerce-Agenten

EcomRLVE-GYM überträgt den RLVE-Ansatz von Single-Turn-Rätseln auf Multi-Turn-E-Commerce-Dialoge mit Tools. Das Framework umfasst acht algorithmisch überprüfbare Umgebungen, eine 12-dimensionale Schwierigkeitsskala und erste Trainingsresultate mit Qwen 3 8B und DAPO.

admin - 24. April 2026

Google DeepMind

Google stellt Gemini 2.0 Flash allgemein bereit und ergänzt Pro Experimental sowie Flash-Lite

Google macht das aktualisierte Gemini 2.0 Flash allgemein über die Gemini API in Google AI Studio und Vertex AI verfügbar. Gleichzeitig erscheinen Gemini 2.0 Pro Experimental für Coding und komplexe Prompts sowie Gemini 2.0 Flash-Lite als kosteneffizientes Modell in Public Preview.

admin - 24. April 2026

Google DeepMind

Gemini 2.0 Flash-Lite ist allgemein in der Gemini API verfügbar

Google stellt Gemini 2.0 Flash-Lite für den Produktionseinsatz in der Gemini API bereit, nutzbar in Google AI Studio und auf Vertex AI. Das Modell soll gegenüber Gemini 1.5 Flash bei Reasoning, Multimodalität, Mathematik und Faktentreue besser abschneiden und bei langen Kontextfenstern kostengünstiger sein.

admin - 24. April 2026

Recent Articles

xAI veröffentlicht Grok Text-to-Speech API

NVIDIA erweitert Megatron Core um Muon und weitere Optimizer für LLM-Training

NVIDIA beschreibt RTX PRO 4500 Blackwell Server Edition mit vGPU 20 für virtualisierte Rechenzentren

nvmath-python 0.9.0 integriert Universal Sparse Tensor für Sparse-Workloads

NVIDIA beschreibt Kaggle-Sieg mit LLM-gestützter Code-Generierung und GPU-beschleunigten Experimenten

Stay on op - Ge the daily news in your inbox