KI Modelle

xAI veröffentlicht Grok Text-to-Speech API

xAI hat die Text-to-Speech API von Grok freigegeben. Die Schnittstelle bietet fünf Stimmen, expressive Steuerungsmöglichkeiten und ist mit 4,20 US-Dollar pro 1 Million Zeichen bepreist.

admin - 25. April 2026

Forschung

NVIDIA erweitert Megatron Core um Muon und weitere Optimizer für LLM-Training

NVIDIA beschreibt die Integration von Muon und weiteren höherwertigen Optimierern in Megatron Core und erläutert, wie sich diese Verfahren auf große GPU-Cluster skalieren lassen. Für Kimi K2 und Qwen3 30B zeigen Messungen auf NVIDIA-GB300-Systemen laut NVIDIA nur geringe Durchsatzverluste gegenüber AdamW.

admin - 25. April 2026

KI Modelle

NVIDIA: Kosten pro Token als zentrale Kennzahl für KI-Infrastruktur

NVIDIA argumentiert, dass bei generativer und agentischer KI nicht Rechenkosten oder FLOPS pro Dollar, sondern die Kosten pro Token die entscheidende TCO-Kennzahl sind. Anhand von DeepSeek-R1 und dem Vergleich von Blackwell mit Hopper hebt das Unternehmen hervor, dass reale Token-Ausgabe, Software-Optimierung und Auslastung für die Wirtschaftlichkeit ausschlaggebend seien.

admin - 24. April 2026

Forschung

Falcon Perception und Falcon OCR: Early-Fusion-Transformer für Grounding, Segmentierung und OCR

TII stellt mit Falcon Perception ein 0,6B-Parameter-Modell für open-vocabulary Grounding und Segmentierung sowie mit Falcon OCR ein 0,3B-Parameter-Modell für OCR vor. Beide nutzen eine Early-Fusion-Transformer-Architektur mit gemeinsamem Tokenraum für Bild- und Texteingaben und werden im Beitrag mit Benchmarks, Trainingsaufbau und Inferenz-Stack beschrieben.

admin - 24. April 2026

Google DeepMind

Gemma 4 erscheint als offene multimodale Modellfamilie mit breiter Laufzeitunterstützung

Hugging Face stellt Gemma 4 als Apache-2-lizenzierte Modellfamilie vor, die Bild-, Text- und teils auch Audioeingaben unterstützt und in mehreren Größen verfügbar ist. Der Beitrag beschreibt Architekturmerkmale, multimodale Fähigkeiten, Benchmark-Werte sowie die Unterstützung in Werkzeugen wie transformers, llama.cpp, MLX, transformers.js und mistral.rs.

admin - 24. April 2026

Forschung

Multimodale Embedding- und Reranker-Modelle in Sentence Transformers

Sentence Transformers unterstützt in v5.4 multimodale Embedding- und Reranker-Modelle, die Text, Bilder sowie je nach Modell weitere Modalitäten in Retrieval- und Ranking-Workflows nutzen. Der Beitrag zeigt unterstützte Eingabeformate, typische Aufrufe für Encode, Retrieve und Rerank sowie Hardware- und Konfigurationshinweise.

admin - 24. April 2026

KI Modelle

Recent Articles

xAI veröffentlicht Grok Text-to-Speech API

NVIDIA erweitert Megatron Core um Muon und weitere Optimizer für LLM-Training

NVIDIA beschreibt RTX PRO 4500 Blackwell Server Edition mit vGPU 20 für virtualisierte Rechenzentren

nvmath-python 0.9.0 integriert Universal Sparse Tensor für Sparse-Workloads

NVIDIA beschreibt Kaggle-Sieg mit LLM-gestützter Code-Generierung und GPU-beschleunigten Experimenten

Stay on op - Ge the daily news in your inbox