Gemini 2.5 Flash startet als Preview in Google AI Studio und Vertex AI

Google rollt eine fruehe Preview von Gemini 2.5 Flash ueber die Gemini API in Google AI Studio und Vertex AI aus. Das Modell baut auf Gemini 2.0 Flash auf und soll die Reasoning-Faehigkeiten deutlich erweitern, waehrend Geschwindigkeit und Kosten weiter priorisiert werden.

Gemini 2.5 Flash ist laut Google das erste voll hybride Reasoning-Modell des Unternehmens. Entwickler koennen das Thinking ein- oder ausschalten und ein Thinking-Budget festlegen, um den Trade-off zwischen Qualitaet, Kosten und Latenz zu steuern. Auch mit deaktiviertem Thinking sollen die hohen Geschwindigkeiten von 2.0 Flash erhalten bleiben, bei zugleich verbesserter Leistung.

Die Gemini-2.5-Modelle sind als Thinking-Modelle ausgelegt. Statt unmittelbar eine Ausgabe zu erzeugen, kann das Modell einen Thinking-Prozess durchlaufen, um Prompts besser zu verstehen, komplexe Aufgaben in Teilschritte zu zerlegen und eine Antwort zu planen. Bei Aufgaben mit mehreren Reasoning-Schritten, etwa in Mathematik oder bei Forschungsfragen, soll das zu genaueren und umfassenderen Antworten fuehren. In LMArena erreiche Gemini 2.5 Flash bei Hard Prompts laut Google eine starke Leistung und liege dort hinter 2.5 Pro auf dem zweiten Platz.

Google bezeichnet 2.5 Flash zudem als das Modell mit dem besten Preis-Leistungs-Verhaeltnis. Der Vergleich zur Bepreisung basiert laut Fussnote auf Daten von Artificial Analysis und Unternehmensdokumentationen.

Fuer unterschiedliche Anwendungsfaelle laesst sich ein Thinking-Budget setzen, das die maximale Zahl von Token waehrend der Thinking-Phase begrenzt. Ein hoeheres Budget gibt dem Modell mehr Raum fuer zusaetzliches Reasoning und kann die Qualitaet verbessern. Das Budget ist dabei nur eine Obergrenze: Wenn ein Prompt es nicht erfordert, nutzt das Modell den vollen Wert nicht aus. Laut Google ist das Modell darauf trainiert, die noetige Thinking-Dauer je nach wahrgenommener Aufgabenkomplexitaet selbst zu bestimmen.

Wer Kosten und Latenz moeglichst niedrig halten und trotzdem gegenueber 2.0 Flash zulegen will, kann das Thinking-Budget auf 0 setzen. Fuer Gemini 2.5 Flash reicht der Bereich von 0 bis 24576 Token. Die Einstellung ist ueber einen API-Parameter sowie ueber einen Slider in Google AI Studio und Vertex AI verfuegbar.

Google zeigt dazu Beispiele fuer unterschiedlich hohen Reasoning-Bedarf im Standardmodus, von einfachen Prompts wie einer spanischen Uebersetzung von „Thank you“ oder der Frage nach der Zahl der Provinzen Kanadas bis zu Aufgaben wie Wahrscheinlichkeitsrechnung mit zwei Wuerfeln, Wochenplanung unter Zeitbedingungen, einer Berechnung zur maximalen Biegespannung eines Kragtraegers und einer Python-Funktion zur Auswertung von Spreadsheet-Zellen mit Abhaengigkeiten und Cycle-Erkennung.

Gemini 2.5 Flash mit Thinking-Faehigkeiten ist als Preview ueber die Gemini API in Google AI Studio und Vertex AI sowie ueber ein eigenes Dropdown in der Gemini-App verfuegbar. Google verweist fuer weitere Details auf die API-Referenzen, die Thinking-Guides in der Entwicklerdokumentation und Code-Beispiele im Gemini Cookbook. Vor der allgemeinen Verfuegbarkeit fuer den vollen Produktionseinsatz sollen weitere Verbesserungen folgen.

Quelle

Originalquelle: Google DeepMind News

Quelle

Originalquelle: Google DeepMind News

Gemini 2.5 Flash startet als Preview in Google AI Studio und Vertex AI

Quelle

Quelle

Recent Articles

xAI veröffentlicht Grok Text-to-Speech API

NVIDIA erweitert Megatron Core um Muon und weitere Optimizer für LLM-Training

NVIDIA beschreibt RTX PRO 4500 Blackwell Server Edition mit vGPU 20 für virtualisierte Rechenzentren

nvmath-python 0.9.0 integriert Universal Sparse Tensor für Sparse-Workloads

NVIDIA beschreibt Kaggle-Sieg mit LLM-gestützter Code-Generierung und GPU-beschleunigten Experimenten

Related Stories

Leave A Reply Antwort abbrechen

Stay on op - Ge the daily news in your inbox