Google DeepMind arbeitet daran, Gemini 2.5 Pro von einem multimodalen Foundation Model zu einem „world model“ weiterzuentwickeln. Gemeint ist ein System, das Aspekte der Welt verstehen und simulieren, Pläne erstellen und neue Erfahrungen vorstellen kann. Das Unternehmen beschreibt diesen Schritt als Grundlage für einen universellen KI-Assistenten, der Kontext versteht, über Geräte hinweg agieren und im Auftrag von Nutzern Aufgaben ausführen kann.
Als Vorarbeiten nennt Google DeepMind unter anderem den Transformer, auf dem Large Language Models basieren, sowie Agentensysteme wie AlphaGo und AlphaZero. Diese Forschung sei auch in anderen Bereichen eingesetzt worden, etwa in Quantencomputing, Mathematik, Life Sciences und algorithmischer Entdeckung. Für die Entwicklung in Richtung eines world model verweist das Unternehmen zudem auf frühere Arbeiten mit Agenten in komplexen Spielen wie Go und StarCraft sowie auf Genie 2, das aus einem einzelnen Bild-Prompt interaktive 3D-Simulationsumgebungen erzeugen kann.
Hinweise auf diese Fähigkeiten sieht Google DeepMind bereits in mehreren Systemen: in Geminis Nutzung von Weltwissen und Reasoning zur Repräsentation und Simulation natürlicher Umgebungen, in Veos Verständnis intuitiver Physik sowie in Gemini Robotics, das Robotern Greifen, das Befolgen von Anweisungen und Anpassungen während der Ausführung vermittelt.
Ein weiterer Schwerpunkt ist die Überführung von Funktionen aus dem Forschungssystem Project Astra in Produkte. Die langfristige Vorstellung ist, die Gemini-App zu einem universellen KI-Assistenten auszubauen, der Alltagsaufgaben übernimmt, administrative Routinen erledigt und Empfehlungen bereitstellt. Die dafür relevanten Fähigkeiten wurden laut Google DeepMind bereits im vergangenen Jahr mit Project Astra erprobt, darunter Videoverständnis, Screen Sharing und Memory.
Im Laufe des vergangenen Jahres seien solche Funktionen schrittweise in Gemini Live integriert worden. Genannt werden unter anderem natürlicherer Sprachoutput mit native audio, Verbesserungen bei Memory und zusätzliche Computersteuerung. Diese Funktionen werden derzeit mit ausgewählten Testern erprobt. Geplant ist, sie in Gemini Live, in neue Search-Erfahrungen, in die Live API für Entwickler sowie in neue Formfaktoren wie Brillen zu bringen.
Google DeepMind betont, dass Sicherheit und verantwortlicher Einsatz in allen Phasen eine zentrale Rolle spielen. Das Unternehmen verweist auf ein umfangreiches Forschungsprojekt zu ethischen Fragen rund um fortgeschrittene KI-Assistenten, dessen Ergebnisse weiterhin in Forschung, Entwicklung und Bereitstellung einfließen sollen.
Neben Astra beschreibt Google DeepMind mit Project Mariner einen weiteren Forschungsstrang für agentische Funktionen. Das Projekt untersucht Formen der Interaktion zwischen Menschen und Agenten, zunächst im Browser. Seit der Einführung im Dezember habe das Team mit ausgewählten Testern gearbeitet, um Rückmeldungen zu sammeln und die experimentellen Funktionen zu verbessern.
Project Mariner umfasst nun laut Google DeepMind ein System von Agenten, das bis zu zehn verschiedene Aufgaben gleichzeitig erledigen kann. Als Beispiele nennt das Unternehmen Informationssuche, Buchungen, Einkäufe und Recherche. Die aktualisierte Version ist für Google AI Ultra-Abonnenten in den USA verfügbar. Zudem sollen die Computer-Use-Funktionen in die Gemini API einfließen, und weitere Fähigkeiten des Projekts sollen im Laufe des Jahres in Google-Produkte übernommen werden.
