Google erweitert Video- und Bildgenerierung mit Veo 2, Imagen 3 und Whisk

Google führt mit Veo 2 ein neues Modell für Videogenerierung und eine aktualisierte Version von Imagen 3 für die Bildgenerierung ein. Nach Angaben des Unternehmens erreichen beide Modelle in von Menschen bewerteten Direktvergleichen mit führenden Modellen Ergebnisse auf dem Stand der Technik. Sie werden in VideoFX, ImageFX und im neuen Google-Labs-Experiment Whisk bereitgestellt.

Veo 2 ist für die Erzeugung hochwertiger Videos über verschiedene Motive und Stile hinweg ausgelegt. Google nennt ein verbessertes Verständnis von Physik in der realen Welt sowie von menschlichen Bewegungen und Ausdrucksformen, was Details und Realismus verbessern soll. Das Modell verarbeitet auch Begriffe aus der Filmsprache, etwa Genres, Objektive und cineastische Effekte, und unterstützt nach Unternehmensangaben Auflösungen bis 4K sowie Videolängen von mehreren Minuten.

Als Beispiele nennt Google Kameraperspektiven und filmische Anweisungen wie eine tief angesetzte Tracking-Einstellung, eine Nahaufnahme oder Hinweise wie „18mm lens“ und „shallow depth of field“. Außerdem soll Veo 2 typische Fehler von Videomodellen, etwa unerwünschte zusätzliche Finger oder unerwartete Objekte, seltener erzeugen.

Google beschreibt die Einführung von Veo 2 als bewusst schrittweise, um Qualität und Sicherheit des Modells besser prüfen und verbessern zu können. Wie bei den übrigen Bild- und Videogenerierungsmodellen des Unternehmens werden die Ausgaben von Veo 2 mit einem unsichtbaren SynthID-Wasserzeichen versehen, um sie als KI-generiert kenntlich zu machen und das Risiko von Falschzuordnung und Fehlinformationen zu verringern.

Die neuen Veo-2-Funktionen werden zunächst in VideoFX ausgerollt, zugleich wird der Zugang auf mehr Nutzer ausgeweitet. Interessenten können sich über Google Labs auf eine Warteliste setzen lassen. Für das nächste Jahr plant Google zudem eine Ausweitung auf YouTube Shorts und weitere Produkte.

Auch Imagen 3 wurde überarbeitet. Das Modell soll nun hellere und besser komponierte Bilder erzeugen, mehr Kunststile präziser wiedergeben und Prompts genauer befolgen. Google nennt hier ein Spektrum von Photorealismus über Impressionismus bis zu abstrakten Stilen und Anime. Zudem sollen Details und Texturen reicher ausfallen. Die neueste Version von Imagen 3 wird ab sofort in ImageFX in mehr als 100 Ländern eingeführt.

Mit Whisk startet Google außerdem ein neues Labs-Experiment, bei dem sich mit Bildern prompten lässt. Nutzer können Bilder eingeben oder erzeugen, die Motiv, Szene und Stil vorgeben, und diese anschließend kombinieren und remixen. Technisch verbindet Whisk das aktuelle Imagen-3-Modell mit den visuellen Verständnis- und Beschreibungsfähigkeiten von Gemini. Gemini erstellt dabei automatisch eine detaillierte Bildbeschreibung, die anschließend an Imagen 3 übergeben wird, um Motive, Szenen und Stile neu zu kombinieren.

Quelle

Originalquelle: Google DeepMind News

Google erweitert Video- und Bildgenerierung mit Veo 2, Imagen 3 und Whisk

Quelle

Recent Articles

xAI veröffentlicht Grok Text-to-Speech API

NVIDIA erweitert Megatron Core um Muon und weitere Optimizer für LLM-Training

NVIDIA beschreibt RTX PRO 4500 Blackwell Server Edition mit vGPU 20 für virtualisierte Rechenzentren

nvmath-python 0.9.0 integriert Universal Sparse Tensor für Sparse-Workloads

NVIDIA beschreibt Kaggle-Sieg mit LLM-gestützter Code-Generierung und GPU-beschleunigten Experimenten

Related Stories

Leave A Reply Antwort abbrechen

Stay on op - Ge the daily news in your inbox