KI Modelle

Forschung

QIMMA: qualitaetsgeprueftes Leaderboard fuer arabische LLM-Bewertung

QIMMA bewertet arabische Benchmarks vor der Modellevaluation und soll so sicherstellen, dass gemeldete Ergebnisse tatsaechlich arabische Sprachfaehigkeit abbilden. Die Plattform fuehrt 109 Teilmengen aus 14 Benchmarks zusammen, prueft jedes Sample in einer mehrstufigen Pipeline und veroeffentlicht darauf basierende Modellranglisten.

admin - 24. April 2026

KI Modelle

Gemma-4-VLA-Demo auf Jetson Orin Nano Super mit lokaler Sprach- und Vision-Verarbeitung

Das Tutorial zeigt eine einfache VLA-Konfiguration mit Gemma 4 auf einem NVIDIA Jetson Orin Nano Super mit 8 GB, lokaler Speech-to-Text- und Text-to-Speech-Verarbeitung sowie optionaler Webcam-Nutzung. Die Demo nutzt tool calling über llama-server, sodass das Modell je nach Anfrage selbst entscheidet, ob ein Kamerabild aufgenommen und in die Antwort einbezogen werden soll.

admin - 24. April 2026

Forschung

DeepSeek-V4 zielt auf lange agentische Workloads mit bis zu 1 Million Token Kontext

DeepSeek-V4 wurde fuer lange agentische Ablaufe entwickelt, bei denen heutige offene Frontier-Modelle an Kontextkosten, KV-Cache und Tool-Aufrufen scheitern. Der Beitrag beschreibt eine Architektur mit komprimierter Attention, agentenspezifisches Post-Training sowie Benchmark- und Modellangaben.

admin - 24. April 2026

Google DeepMind

Google stellt Gemini 2.5 Pro Experimental vor

Google führt mit Gemini 2.5 eine neue Modellgeneration ein und veröffentlicht zunächst Gemini 2.5 Pro Experimental. Das Modell wird als Thinking Model beschrieben, ist in Google AI Studio und für Gemini-Advanced-Nutzer in der Gemini-App verfügbar und soll bald auch zu Vertex AI kommen.

admin - 24. April 2026

Forschung

DolphinGemma: Google stellt KI-Modell zur Analyse von Delfinlauten vor

Google arbeitet mit Georgia Tech und dem Wild Dolphin Project an DolphinGemma, einem KI-Grundlagenmodell zur Analyse der Struktur von Delfinvokalisationen und zur Erzeugung neuer delfinähnlicher Lautfolgen. Das Modell soll Forschenden helfen, Muster in natürlichen Lautsequenzen zu erkennen und wird zudem mit dem Unterwasser-System CHAT für mögliche Zwei-Wege-Interaktion erprobt.

admin - 24. April 2026

Audio & Video

Google startet Videogenerierung mit Veo 2 in Gemini und Whisk

Google stellt die Videogenerierung mit dem Modell Veo 2 fuer Gemini Advanced sowie fuer Whisk Animate bereit. In Gemini entstehen daraus acht Sekunden lange 720p-MP4-Videos aus Text-Prompts, in Whisk lassen sich Bilder zu Videos animieren.

admin - 24. April 2026

Recent Articles

xAI veröffentlicht Grok Text-to-Speech API

NVIDIA erweitert Megatron Core um Muon und weitere Optimizer für LLM-Training

NVIDIA beschreibt RTX PRO 4500 Blackwell Server Edition mit vGPU 20 für virtualisierte Rechenzentren

nvmath-python 0.9.0 integriert Universal Sparse Tensor für Sparse-Workloads

NVIDIA beschreibt Kaggle-Sieg mit LLM-gestützter Code-Generierung und GPU-beschleunigten Experimenten

Stay on op - Ge the daily news in your inbox