Gemma 4 erscheint als offene multimodale Modellfamilie mit breiter Laufzeitunterstützung

Gemma 4 ist eine offene Modellfamilie unter Apache-2-Lizenz, die Bild-, Text- und teilweise auch Audioeingaben verarbeitet und Text ausgibt. Laut Hugging Face sind die Modelle für den Einsatz auf unterschiedlichen Plattformen ausgelegt, darunter auch On-Device-Szenarien, und von Beginn an in verschiedenen Open-Source-Stacks verfügbar.

Ähnlich wie Gemma-3n unterstützt Gemma 4 Bild-, Text- und Audioeingaben. Alle Modelle verarbeiten Bilder oder Video zusammen mit Text, während die kleineren Varianten E2B und E4B zusätzlich Audio unterstützen. Der Textdecoder basiert auf dem Gemma-Modell und unterstützt lange Kontextfenster. Der Bildencoder ähnelt dem aus Gemma 3, ergänzt um variable Seitenverhältnisse und eine konfigurierbare Zahl von Bild-Token, um den Kompromiss zwischen Geschwindigkeit, Speicherbedarf und Qualität anzupassen.

Gemma 4 erscheint in vier Größen, jeweils als Base- und Instruction-Variante. Die Architektur kombiniert Komponenten aus früheren Gemma-Versionen und anderen offenen Modellen und verzichtet laut Beitrag auf komplexe oder nicht eindeutige Merkmale wie Altup. Ziel ist eine hohe Kompatibilität über Bibliotheken und Geräte hinweg, effiziente Unterstützung für langen Kontext und agentische Anwendungsfälle sowie gute Eignung für Quantisierung.

Zu den zentralen Architekturmerkmalen gehören abwechselnde lokale Sliding-Window- und globale Full-Context-Attention-Schichten. Kleinere dichte Modelle nutzen Sliding Windows mit 512 Tokens, größere mit 1024 Tokens. Hinzu kommen zwei RoPE-Konfigurationen, nämlich Standard-RoPE für Sliding-Layer und pruned RoPE für globale Layer, um längere Kontexte zu ermöglichen. Außerdem nennt der Beitrag Per-Layer Embeddings, einen Shared KV Cache, einen Vision-Encoder mit gelernten 2D-Positionen und multidimensionalem RoPE sowie einen Audio-Encoder im USM-Stil mit Conformer-Architektur wie bei Gemma-3n.

Per-Layer Embeddings, kurz PLE, sind insbesondere in den kleineren Gemma-4-Modellen ein auffälliges Merkmal. Dabei erhält jedes Decoder-Layer zusätzlich zur normalen Repräsentation ein kleines, eigenes tokenbezogenes Signal. Dieses setzt sich aus einer tokenidentitätsbasierten Komponente und einer kontextabhängigen Projektion der Haupteinbettungen zusammen. Laut Beitrag erlaubt das eine spezialisiertere Verarbeitung pro Layer bei vergleichsweise geringem zusätzlichen Parameteraufwand. Für multimodale Eingaben wird PLE berechnet, bevor Soft Tokens in die Einbettungssequenz eingefügt werden; multimodale Positionen erhalten dabei effektiv neutrale Per-Layer-Signale.

Der Shared KV Cache dient als Effizienzoptimierung für die Inferenz. Die letzten entsprechend konfigurierten Schichten berechnen keine eigenen Key- und Value-Projektionen, sondern verwenden K- und V-Tensoren aus einer früheren Schicht desselben Attention-Typs erneut. Das soll die Rechen- und Speicherkosten senken, insbesondere bei langem Kontext und für On-Device-Nutzung, bei laut Beitrag nur minimalen Qualitätseinbußen.

In informellen eigenen Tests bescheinigt Hugging Face Gemma 4 breite multimodale Fähigkeiten ohne zusätzliche Anpassung. Genannt werden OCR, Speech-to-Text, Objekterkennung und Pointing. Außerdem unterstützt das Modell laut Beitrag Text-Only- und multimodales Function Calling, Reasoning sowie Code-Vervollständigung und -Korrektur. Für GUI-Element-Erkennung und Objektlokalisierung wird beschrieben, dass das Modell Bounding Boxes nativ im JSON-Format zurückgeben kann. Die angegebenen Koordinaten bezogen sich in den Tests auf eine Bildgröße von 1000 mal 1000 relativ zu den Eingabedimensionen.

Als weitere Beispiele zeigt der Beitrag die Generierung von HTML-Code aus einem Screenshot, Bildbeschreibung, Audioverständnis und Transkription sowie multimodales Tool Calling, etwa zur Wetterabfrage auf Basis eines erkannten Ortes im Bild. Für Video gilt: Kleinere Gemma-4-Modelle können Video mit Audio verarbeiten, größere Video ohne Audio. Gleichzeitig wird eingeschränkt, dass die Modelle nicht explizit auf Videos nachtrainiert wurden. Für Audio wird ebenfalls ausdrücklich erwähnt, dass die Modelle darauf trainiert wurden, Fragen zu Sprache in Audio zu beantworten; Musik und nichtsprachliche Geräusche waren nicht Teil der Trainingsdaten.

Für Benchmarks nennt der Beitrag einen geschätzten LMArena-Wert von 1452 für das dichte 31B-Modell im Textmodus sowie 1441 für das 26B-MoE-Modell mit 4B aktiven Parametern. Multimodale Leistung sei in informellen und subjektiven Tests im Vergleich zur Textgenerierung ähnlich gut. Darüber hinaus verweist Hugging Face auf starke Ergebnisse über verschiedene Benchmarks hinweg, darunter Reasoning, Coding, Vision und Long-Context-Aufgaben.

Gemma 4 wird mit Day-0-Unterstützung in mehreren Open-Source-Inferenzumgebungen bereitgestellt. Genannt werden unter anderem transformers, llama.cpp, MLX, transformers.js, Rust beziehungsweise mistral.rs sowie WebGPU. Zusätzlich werden ONNX-Checkpoints veröffentlicht, die auf verschiedenen Hardware-Backends laufen und damit auch Edge- und Browser-Szenarien unterstützen sollen.

In transformers ist Gemma 4 laut Beitrag direkt integriert und kann dadurch auch mit Bibliotheken wie bitsandbytes, PEFT und TRL kombiniert werden. Für kleinere Modelle wird die any-to-any-Pipeline als einfachster Einstieg genannt. Für feinere Kontrolle und Fine-Tuning steht AutoModelForMultimodalLM zur Verfügung; dabei wird empfohlen, die eingebaute Chat-Template-Funktion zu verwenden, um Formatierungsfehler bei Prompts zu vermeiden.

llama.cpp unterstützt Gemma 4 von Beginn an für Bild- und Texteingaben. Das soll den Einsatz in lokalen Anwendungen wie llama-cpp server, LM Studio, Jan und verschiedenen Coding Agents ermöglichen. Für Browser-Ausführung wird transformers.js genannt, das Text-, Bild-Text- und Audio-Text-Inferenz direkt im Browser unterstützt. Vollständige multimodale Unterstützung unter Apple Silicon bietet mlx-vlm; dort wird auch TurboQuant hervorgehoben, das laut Beitrag die Genauigkeit des unkomprimierten Ausgangsmodells beibehält, dabei etwa viermal weniger aktiven Speicher benötigt und die End-to-End-Ausführung beschleunigt. mistral.rs wird als Rust-native Inferenz-Engine mit Unterstützung für Text, Bild, Video und Audio sowie eingebautem Tool Calling und agentischen Funktionen beschrieben.

Für Fine-Tuning nennt der Beitrag vollständige Unterstützung in TRL. Neu ist dort laut Hugging Face die Unterstützung multimodaler Tool-Antworten in Umgebungen, sodass Modelle während des Trainings nicht nur Text, sondern auch Bilder von Tools zurückerhalten können. Als Beispiel dient ein Trainingsskript, in dem Gemma 4 im CARLA-Simulator das Fahren lernt und nach dem Training laut Beitrag zuverlässig die Spur wechselt, um Fußgängern auszuweichen. Außerdem wird ein Beispiel für Fine-Tuning mit TRL auf Vertex AI beschrieben, bei dem die Function-Calling-Fähigkeiten erweitert werden, während Vision- und Audio-Tower eingefroren bleiben. Daneben verweist Hugging Face auf Unsloth Studio für lokales oder Colab-basiertes Fine-Tuning in einer Benutzeroberfläche.

Abschließend nennt der Beitrag mehrere bereitgestellte Demos für verschiedene Gemma-4-Modelle, darunter E4B, 26B/A4B, das dichte 31B-Modell sowie eine WebGPU-Demo mit transformers.js. Hugging Face dankt dabei Google und zahlreichen Mitwirkenden aus dem Open-Source-Ökosystem für die Integration in die unterschiedlichen Bibliotheken und Laufzeitumgebungen.

Quelle

Originalquelle: Hugging Face Blog

Recent Articles

spot_img

Related Stories

Leave A Reply

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein

Stay on op - Ge the daily news in your inbox