Gemini 2.0 Flash mit nativer Bildgenerierung für Entwickler freigegeben

Google macht die native Bildgenerierung von Gemini 2.0 Flash nach einem ersten Test mit ausgewählten Nutzern nun für Entwicklerexperimente in allen derzeit von Google AI Studio unterstützten Regionen verfügbar. Die Funktion lässt sich in einer experimentellen Version des Modells, gemini-2.0-flash-exp, in Google AI Studio und über die Gemini API verwenden.

Gemini 2.0 Flash verbindet multimodale Eingaben, erweitertes Reasoning und natürliches Sprachverständnis, um Bilder zu erzeugen. Das Modell kann etwa Geschichten mit passenden Illustrationen erstellen und dabei Figuren und Umgebungen über mehrere Szenen hinweg konsistent halten. Auf Rückmeldungen kann es reagieren, eine Geschichte neu erzählen oder den Stil der Zeichnungen anpassen.

Außerdem unterstützt das Modell die Bildbearbeitung über mehrere Dialogrunden in natürlicher Sprache. Das ist für schrittweise Überarbeitungen eines Bildes oder zum Erkunden verschiedener visueller Ideen gedacht.

Google hebt hervor, dass Gemini 2.0 Flash im Unterschied zu vielen anderen Bildgenerierungsmodellen Weltwissen und erweitertes Reasoning nutzt, um passendere Bilder zu erzeugen. Als Beispiel nennt das Unternehmen die realistische Darstellung detaillierter Inhalte wie Rezeptillustrationen. Zugleich bleibt die Einschränkung bestehen, dass das Wissen wie bei allen Sprachmodellen breit und allgemein ist, aber nicht absolut oder vollständig.

Ein weiteres genanntes Merkmal ist die Darstellung längerer Textfolgen in Bildern. Viele Bildgenerierungsmodelle haben damit Probleme und erzeugen laut Google häufig schlecht formatierte, unleserliche oder falsch geschriebene Zeichen. Interne Benchmarks zeigen nach Angaben des Unternehmens, dass 2.0 Flash hier stärker rendert als führende Konkurrenzmodelle. Genannt werden als mögliche Einsatzfelder Werbemittel, Social-Posts oder Einladungen.

Für den Einstieg stellt Google die Nutzung über die Gemini API bereit. Dabei kann mit response_modalities festgelegt werden, dass das Modell sowohl Text als auch Bild ausgibt. Google beschreibt den Ansatz als Möglichkeit, Text- und Bildgenerierung mit einem einzigen Modell in Anwendungen wie KI-Agenten, visuell gestalteten Apps oder dialogbasiertem Visual Brainstorming zu kombinieren. Das Unternehmen bezeichnet die aktuelle Version als experimentell und verweist darauf, dass Rückmeldungen in eine produktionsreife Fassung einfließen sollen.

Quelle

Originalquelle: Google DeepMind News

Gemini 2.0 Flash mit nativer Bildgenerierung für Entwickler freigegeben

Quelle

Recent Articles

xAI veröffentlicht Grok Text-to-Speech API

NVIDIA erweitert Megatron Core um Muon und weitere Optimizer für LLM-Training

NVIDIA beschreibt RTX PRO 4500 Blackwell Server Edition mit vGPU 20 für virtualisierte Rechenzentren

nvmath-python 0.9.0 integriert Universal Sparse Tensor für Sparse-Workloads

NVIDIA beschreibt Kaggle-Sieg mit LLM-gestützter Code-Generierung und GPU-beschleunigten Experimenten

Related Stories

Leave A Reply Antwort abbrechen

Stay on op - Ge the daily news in your inbox