xAI hat die Text-to-Speech API von Grok freigegeben. Die Schnittstelle bietet fünf Stimmen, expressive Steuerungsmöglichkeiten und ist mit 4,20 US-Dollar pro 1 Million Zeichen bepreist.
NVIDIA beschreibt die Integration von Muon und weiteren höherwertigen Optimierern in Megatron Core und erläutert, wie sich diese Verfahren auf große GPU-Cluster skalieren lassen. Für Kimi K2 und Qwen3 30B zeigen Messungen auf NVIDIA-GB300-Systemen laut NVIDIA nur geringe Durchsatzverluste gegenüber AdamW.
NVIDIA argumentiert, dass bei generativer und agentischer KI nicht Rechenkosten oder FLOPS pro Dollar, sondern die Kosten pro Token die entscheidende TCO-Kennzahl sind. Anhand von DeepSeek-R1 und dem Vergleich von Blackwell mit Hopper hebt das Unternehmen hervor, dass reale Token-Ausgabe, Software-Optimierung und Auslastung für die Wirtschaftlichkeit ausschlaggebend seien.
TII stellt mit Falcon Perception ein 0,6B-Parameter-Modell für open-vocabulary Grounding und Segmentierung sowie mit Falcon OCR ein 0,3B-Parameter-Modell für OCR vor. Beide nutzen eine Early-Fusion-Transformer-Architektur mit gemeinsamem Tokenraum für Bild- und Texteingaben und werden im Beitrag mit Benchmarks, Trainingsaufbau und Inferenz-Stack beschrieben.
Hugging Face stellt Gemma 4 als Apache-2-lizenzierte Modellfamilie vor, die Bild-, Text- und teils auch Audioeingaben unterstützt und in mehreren Größen verfügbar ist. Der Beitrag beschreibt Architekturmerkmale, multimodale Fähigkeiten, Benchmark-Werte sowie die Unterstützung in Werkzeugen wie transformers, llama.cpp, MLX, transformers.js und mistral.rs.
Sentence Transformers unterstützt in v5.4 multimodale Embedding- und Reranker-Modelle, die Text, Bilder sowie je nach Modell weitere Modalitäten in Retrieval- und Ranking-Workflows nutzen. Der Beitrag zeigt unterstützte Eingabeformate, typische Aufrufe für Encode, Retrieve und Rerank sowie Hardware- und Konfigurationshinweise.