KI Modelle

QIMMA: qualitaetsgeprueftes Leaderboard fuer arabische LLM-Bewertung

QIMMA bewertet arabische Benchmarks vor der Modellevaluation und soll so sicherstellen, dass gemeldete Ergebnisse tatsaechlich arabische Sprachfaehigkeit abbilden. Die Plattform fuehrt 109 Teilmengen aus 14 Benchmarks zusammen, prueft jedes Sample in einer mehrstufigen Pipeline und veroeffentlicht darauf basierende Modellranglisten.

Gemma-4-VLA-Demo auf Jetson Orin Nano Super mit lokaler Sprach- und Vision-Verarbeitung

Das Tutorial zeigt eine einfache VLA-Konfiguration mit Gemma 4 auf einem NVIDIA Jetson Orin Nano Super mit 8 GB, lokaler Speech-to-Text- und Text-to-Speech-Verarbeitung sowie optionaler Webcam-Nutzung. Die Demo nutzt tool calling über llama-server, sodass das Modell je nach Anfrage selbst entscheidet, ob ein Kamerabild aufgenommen und in die Antwort einbezogen werden soll.

DeepSeek-V4 zielt auf lange agentische Workloads mit bis zu 1 Million Token Kontext

DeepSeek-V4 wurde fuer lange agentische Ablaufe entwickelt, bei denen heutige offene Frontier-Modelle an Kontextkosten, KV-Cache und Tool-Aufrufen scheitern. Der Beitrag beschreibt eine Architektur mit komprimierter Attention, agentenspezifisches Post-Training sowie Benchmark- und Modellangaben.

Google stellt Gemini 2.5 Pro Experimental vor

Google führt mit Gemini 2.5 eine neue Modellgeneration ein und veröffentlicht zunächst Gemini 2.5 Pro Experimental. Das Modell wird als Thinking Model beschrieben, ist in Google AI Studio und für Gemini-Advanced-Nutzer in der Gemini-App verfügbar und soll bald auch zu Vertex AI kommen.

DolphinGemma: Google stellt KI-Modell zur Analyse von Delfinlauten vor

Google arbeitet mit Georgia Tech und dem Wild Dolphin Project an DolphinGemma, einem KI-Grundlagenmodell zur Analyse der Struktur von Delfinvokalisationen und zur Erzeugung neuer delfinähnlicher Lautfolgen. Das Modell soll Forschenden helfen, Muster in natürlichen Lautsequenzen zu erkennen und wird zudem mit dem Unterwasser-System CHAT für mögliche Zwei-Wege-Interaktion erprobt.

Google startet Videogenerierung mit Veo 2 in Gemini und Whisk

Google stellt die Videogenerierung mit dem Modell Veo 2 fuer Gemini Advanced sowie fuer Whisk Animate bereit. In Gemini entstehen daraus acht Sekunden lange 720p-MP4-Videos aus Text-Prompts, in Whisk lassen sich Bilder zu Videos animieren.

Recent Articles

Stay on op - Ge the daily news in your inbox

spot_img