NVIDIA: Kosten pro Token als zentrale Kennzahl für KI-Infrastruktur

Mit generativer und agentischer KI verlagert sich die Rolle von Rechenzentren laut NVIDIA von der Verarbeitung und Speicherung von Daten hin zu „AI token factories“, deren primärer Output in Form von Tokens bereitgestellt wird. Entsprechend müsse auch die wirtschaftliche Bewertung von KI-Infrastruktur einschließlich Total Cost of Ownership neu ausgerichtet werden.

NVIDIA unterscheidet dabei zwischen Rechenkosten, FLOPS pro Dollar und Kosten pro Token. Rechenkosten beschreiben, was Unternehmen für KI-Infrastruktur zahlen, ob in der Cloud oder on premises. FLOPS pro Dollar geben an, wie viel rohe Rechenleistung pro investiertem Dollar zur Verfügung steht. Die Kosten pro Token erfassen dagegen die gesamten Kosten, um jeden tatsächlich ausgelieferten Token zu erzeugen, üblicherweise als Kosten pro Million Tokens. NVIDIA bezeichnet die ersten beiden Größen als Input-Metriken und stellt ihnen die output-orientierte Kennzahl Kosten pro Token gegenüber.

Für die Optimierung der Kosten pro Token sei nicht nur der Preis pro GPU-Stunde relevant, sondern vor allem die tatsächliche Token-Ausgabe im Nenner der Gleichung. Eine höhere ausgegebene Token-Menge senke einerseits die Kosten pro Token und erhöhe andererseits die Zahl der Tokens pro Megawatt. Das sei insbesondere für on-premises-Installationen mit hohen Investitionen in Fläche, Strom und Infrastruktur wichtig.

Als entscheidend für die reale Token-Ausgabe nennt NVIDIA unter anderem die Kosten pro Million Tokens bei großen Mixture-of-Experts-Reasoning-Modellen, die ausgelieferte Token-Leistung pro Megawatt, die Fähigkeit des Scale-up-Interconnects, „all-to-all“-Verkehr von MoE-Modellen zu bewältigen, Unterstützung für FP4-Präzision, die Nutzung von speculative decoding oder multi-token prediction sowie Optimierungen in der Serving-Schicht wie disaggregated serving, KV-aware routing und KV-cache offloading. Hinzu kommen Anforderungen agentischer KI wie sehr niedrige Latenz, hoher Durchsatz und große Eingabesequenzen sowie die Unterstützung des gesamten Lebenszyklus von Training und Post-Training bis zur Inferenz im großen Maßstab über unterschiedliche Modellarchitekturen hinweg.

Laut NVIDIA müssen diese algorithmischen, Hardware- und Software-Optimierungen zusammenwirken. Eine günstigere GPU, die deutlich weniger Tokens pro Sekunde ausliefert, könne am Ende höhere Kosten pro Token verursachen.

Am Beispiel des Modells DeepSeek-R1 verweist NVIDIA auf einen Unterschied zwischen theoretischen Kennzahlen und tatsächlichen Ergebnissen. Betrachtet man nur die Rechenkosten, erscheine die Blackwell-Plattform von NVIDIA ungefähr doppelt so teuer wie NVIDIA Hopper. Eine Analyse anhand von FLOPS pro Dollar deute auf einen etwa zweifachen Vorteil für Blackwell gegenüber Hopper hin. Bei der tatsächlichen Ausgabe nennt NVIDIA jedoch mehr als den 50-fachen Token-Output pro Watt und nahezu 35-fach niedrigere Kosten pro Million Tokens für Blackwell. Die Daten stammen laut Hinweis aus einer NVIDIA-Analyse und dem Benchmark SemiAnalysis InferenceX v2.

Für die Auswahl von KI-Infrastruktur folgert NVIDIA daraus, dass Rechenkosten und theoretische FLOPS pro Dollar die Inferenzökonomie nicht ausreichend abbilden. Maßgeblich seien stattdessen Kosten pro Token und die tatsächlich ausgelieferte Token-Leistung. NVIDIA führt die eigenen Werte auf ein enges Codesign von Compute, Netzwerk, Speicher, Storage, Software und Partnertechnologien zurück. Zusätzlich verweist das Unternehmen auf fortlaufende Optimierungen in Open-Source-Inferenzsoftware wie vLLM, SGLang, NVIDIA TensorRT-LLM und NVIDIA Dynamo, durch die auf bestehender NVIDIA-Infrastruktur die Token-Ausgabe weiter steigen und die Kosten pro Token weiter sinken sollen.

Als Beispiele für Partner nennt NVIDIA CoreWeave, Nebius, Nscale und Together AI, die Blackwell-Infrastruktur eingesetzt und ihre Stacks entsprechend optimiert hätten.

Quelle

Originalquelle: NVIDIA Blog

NVIDIA: Kosten pro Token als zentrale Kennzahl für KI-Infrastruktur

Quelle

Recent Articles

xAI veröffentlicht Grok Text-to-Speech API

NVIDIA erweitert Megatron Core um Muon und weitere Optimizer für LLM-Training

NVIDIA beschreibt RTX PRO 4500 Blackwell Server Edition mit vGPU 20 für virtualisierte Rechenzentren

nvmath-python 0.9.0 integriert Universal Sparse Tensor für Sparse-Workloads

NVIDIA beschreibt Kaggle-Sieg mit LLM-gestützter Code-Generierung und GPU-beschleunigten Experimenten

Related Stories

Leave A Reply Antwort abbrechen

Stay on op - Ge the daily news in your inbox