Hugging Face stellt Waypoint-1.5 als nächstes Echtzeit-Video-Weltmodell von Overworld vor. Die Version erhöht die Bildqualität, ergänzt eine 360p-Stufe für breitere Hardware-Unterstützung und soll interaktive generative Umgebungen lokal auf Alltags-Hardware zugänglicher machen.
Google stellt mit Veo 2 ein neues Videomodell und eine aktualisierte Version von Imagen 3 für die Bildgenerierung vor. Beide Modelle sollen in menschlich bewerteten Vergleichen Ergebnisse auf dem Stand der Technik erreichen und werden über VideoFX, ImageFX und das neue Labs-Experiment Whisk verfügbar gemacht.
Google DeepMind und Google Research stellen mit FACTS Grounding einen neuen Benchmark zur Bewertung der Faktentreue großer Sprachmodelle vor. Der Fokus liegt auf der Frage, wie gut Modellantworten durch bereitgestellte Quellen gestützt sind.
NVIDIA und Google Cloud erweitern ihre gemeinsame KI-Plattform um neue Infrastruktur, Sicherheitsfunktionen und Modellangebote für agentische und physische KI. Vorgestellt wurden unter anderem A5X-Bare-Metal-Instanzen auf Basis von NVIDIA Vera Rubin, Gemini auf Google Distributed Cloud mit Blackwell-GPUs sowie Nemotron-Modelle und NeMo-Funktionen auf der Gemini Enterprise Agent Platform.
Microsoft Research beschreibt mit PlugMem ein Plug-and-play-Speichersystem für LLM-Agenten, das Interaktionsverläufe in strukturierte, wiederverwendbare Wissenseinheiten umwandelt. In drei unterschiedlichen Benchmarks erzielte das Modul laut den Autoren bessere Ergebnisse als generische Retrieval-Verfahren und aufgabenspezifische Speicheransätze, bei geringerem Speicher-Token-Bedarf.
In der ersten Folge von „The Shape of Things to Come“ diskutieren Doug Burger, Nicolò Fusi und Subutai Ahmad, ob heutige KI-Systeme als intelligent gelten können. Im Mittelpunkt stehen Unterschiede zwischen transformerbasierten Large Language Models und der verteilten, kontinuierlich lernenden Architektur des menschlichen Gehirns.