Google stellt Veo 3, Imagen 4, Flow und erweiterte Lyria-2-Zugaenge vor

Google hat neue generative Medienmodelle und Werkzeuge vorgestellt. Im Mittelpunkt stehen Veo 3 fuer Videogenerierung, Imagen 4 fuer Bildgenerierung, erweiterte Zugaenge zu Lyria 2 fuer Musik sowie Flow als neues AI-Filmmaking-Tool. Nach Angaben des Unternehmens wurden die Modelle und Produkte in Zusammenarbeit mit Filmschaffenden, Musikerinnen und Musikern, Kunstschaffenden und YouTube-Creators mit Blick auf einen verantwortungsvollen Einsatz weiterentwickelt.

Veo 3 soll die Qualitaet von Veo 2 verbessern und kann erstmals neben Video auch Audio erzeugen, darunter Umgebungsgeraesche und Dialoge. Google nennt ausserdem Verbesserungen bei Text- und Bild-Prompts, bei realitaetsnaher Physik und beim Lip-Sync. Das Modell ist ab sofort fuer Ultra-Abonnenten in den USA in der Gemini-App und in Flow verfuegbar sowie fuer Unternehmenskunden ueber Vertex AI.

Parallel dazu erhaelt Veo 2 neue Funktionen, die laut Google aus der Zusammenarbeit mit Kreativen und Filmschaffenden hervorgegangen sind. Dazu gehoeren reference powered video fuer konsistentere Figuren, Szenen, Objekte und Stile, camera controls fuer praezise Kamerabewegungen wie Rotationen, Dollies und Zooms, Outpainting zur Erweiterung des Bildausschnitts etwa von Hoch- zu Querformat sowie object add and remove zum Hinzufuegen oder Entfernen von Objekten unter Beruecksichtigung von Massstab, Interaktionen und Schatten. Reference powered video und camera controls sind ab sofort in Flow verfuegbar; die weiteren Funktionen sollen in den kommenden Wochen in die Vertex AI API und in den naechsten Monaten in weitere Produkte kommen.

Flow ist ein neues AI-Filmmaking-Tool, das Veo, Imagen und Gemini kombiniert. Es soll die Erstellung filmischer Clips, Szenen und Geschichten mit natuerlicher Sprache ermoeglichen. Zentrale Elemente einer Geschichte wie Cast, Orte, Objekte und Stile lassen sich laut Google an einer Stelle verwalten. Flow ist ab sofort in den USA fuer Abonnenten der Google AI Pro- und Ultra-Tarife verfuegbar; weitere Laender sollen folgen.

Imagen 4 wird als neues Bildmodell eingefuehrt. Google beschreibt eine Kombination aus Geschwindigkeit und Praezision sowie hohe Detailklarheit etwa bei Stoffen, Wassertropfen und Tierfell. Das Modell unterstuetzt photorealistische und abstrakte Stile, verschiedene Seitenverhaeltnisse und Aufloesungen bis 2k. Ausserdem soll Imagen 4 deutlich besser bei Rechtschreibung und Typografie sein. Verfuegbar ist es ab sofort in der Gemini-App, in Whisk, in Vertex AI sowie in Slides, Vids, Docs und weiteren Workspace-Produkten. Eine schnelle Variante von Imagen 4, die laut Google bis zu zehnmal schneller als Imagen 3 sein soll, wurde fuer spaeter angekuendigt.

Im Musikbereich erweitert Google den Zugang zu Lyria 2. Music AI Sandbox, das mit Lyria 2 betrieben wird, wurde bereits im April breiter verfuegbar gemacht und richtet sich mit experimentellen Werkzeugen an Musiker, Produzenten und Songwriter. Lyria 2 ist nun fuer Kreative ueber YouTube Shorts sowie fuer Unternehmen in Vertex AI verfuegbar. Zusaetzlich stellt Google Lyria RealTime, das interaktive Musikgenerierungsmodell hinter MusicFX DJ, ueber eine API und in AI Studio bereit. Damit soll sich generative Musik in Echtzeit interaktiv erzeugen, steuern und performen lassen.

Im Bereich Kennzeichnung und Verifikation verweist Google darauf, dass SynthID seit dem Start 2023 mehr als 10 Milliarden Bilder, Videos, Audiodateien und Texte mit Wasserzeichen versehen hat. Ausgaben von Veo 3, Imagen 4 und Lyria 2 sollen weiterhin SynthID-Wasserzeichen tragen. Neu angekuendigt wurde zudem SynthID Detector als Verifikationsportal, mit dem sich pruefen laesst, ob eine Datei vollstaendig oder teilweise SynthID enthaelt.

Quelle

Originalquelle: Google DeepMind News

Recent Articles

spot_img

Related Stories

Leave A Reply

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein

Stay on op - Ge the daily news in your inbox