NVIDIA beschreibt Kaggle-Sieg mit LLM-gestützter Code-Generierung und GPU-beschleunigten Experimenten

Im März 2026 wurden in einem Kaggle-Playground-Wettbewerb mit drei LLM-Agenten mehr als 600.000 Zeilen Code erzeugt und 850 Experimente ausgeführt. Das Ergebnis war laut NVIDIA ein erster Platz bei einer Aufgabe zur Vorhersage von Telekom-Kundenabwanderung, bewertet nach AUC. Die finale Lösung bestand aus einem vierstufigen Stack mit 150 Modellen, ausgewählt aus insgesamt 850 Versuchen.

Der Beitrag beschreibt zwei klassische Engpässe bei Machine-Learning-Wettbewerben: das Schreiben neuer Experiment-Codes und das Ausführen dieser Experimente. Für die Ausführung verweist NVIDIA auf GPUs und Bibliotheken wie cuDF, cuML, XGBoost und PyTorch. LLM-Agenten sollen den ersten Engpass verkürzen, indem sie neue Experimente und Varianten schneller erzeugen.

Der dargestellte Ablauf orientiert sich an einem typischen Kaggle-Workflow für tabellarische Daten. Zunächst steht die exploratory data analysis (EDA), um Struktur und Eigenschaften von train.csv und test.csv zu verstehen, darunter Zeilen- und Spaltenzahl, Zielspalte, Aufgabentyp, verfügbare Features, Datentypen und fehlende Werte. Danach folgen Baselines, Feature Engineering sowie die Kombination von Modellen über Hill Climbing und Stacking.

Verwendet wurden mehrere LLM-Agenten in einem Human-in-the-loop-Setup, konkret GPT-5.4 Pro, Gemini 3.1 Pro und Claude Opus 4.6. Der Beitrag unterscheidet dabei zwischen Chat-basierten Abläufen, bei denen der Nutzer EDA-Code ausführen und Ergebnisse zurückgeben muss, und Umgebungen mit Code-Ausführung wie Claude Code, in denen das Modell den Code selbst schreiben und ausführen kann.

Wenn die Datenstruktur bekannt ist, lässt sich mit dem ersten vollständigen Trainings-Pipeline-Entwurf beginnen, etwa für ein kfold-XGBoost-Modell. Dabei sollen neben Fold-Metriken und Gesamtwert auch OOF- und Test-Vorhersagen als Numpy-Dateien gespeichert werden. Der Beitrag empfiehlt, für jede Variante, ob gut oder schlecht, diese Dateien aufzubewahren, etwa als train_oof_[MODEL]_[VERSION].npy und test_preds_[MODEL]_[VERSION].npy, da sie später für Ensembling, Stacking oder Distillation benötigt werden.

Als Baselines nennt NVIDIA unter anderem GBDT-, NN- und weitere ML-Modelle. Anschließend werden diese Modelle iterativ durch Feature Engineering sowie Tuning und andere Modellverbesserungen weiterentwickelt. LLM-Agenten sollen dabei sowohl neue Merkmalsideen als auch Code-Änderungen schnell erzeugen können. Zur Beschleunigung dieses Zyklus empfiehlt der Beitrag durchgehend den Einsatz von GPUs und GPU-Bibliotheken wie cuDF, cuML, GPU-beschleunigten gradient boosting decision trees und PyTorch auf GPUs.

Für neue Ideen nennt der Text mehrere Wege: LLMs können Fachpublikationen lesen, Foren und öffentlich geteilten Code auswerten, EDA-Ergebnisse für Feature Engineering nutzen, Vorschläge aus dem bestehenden Wissensstand ableiten oder gemeinsam mit Menschen Ideen entwickeln. Aus bestehenden Skripten oder Notebooks lassen sich dann neue Varianten erzeugen, indem ein LLM eine vollständige Ersetzung eines vorhandenen Ansatzes durch einen anderen schreibt.

Bei wachsender Zahl von Experimenten können LLM-Agenten die Ergebnisse über mehrere Python-Skripte oder Jupyter-Notebooks hinweg zusammenfassen. Genannt werden Aufgaben wie das Aggregieren von Modelltypen und Feature-Engineering-Ansätzen, das Kombinieren mehrerer Ideen zu stärkeren Einzelmodellen, das Erstellen von Ensembles, das Stapeln von Modellen und die Nutzung von Pseudo-Labels beziehungsweise Knowledge Distillation, um aus mehreren Vorhersagen ein neues Einzelmodell abzuleiten.

Ein beschriebenes Verfahren ist, aus mehreren vorhandenen Ansätzen ein neues XGBoost-Modell zu erzeugen, das Ideen aus verschiedenen Notebooks zusammenführt. Ein weiteres ist die Übertragung von Wissen aus OOF- und Test-Vorhersagen in ein neues NN- oder GBDT-Modell. Da für jedes Experiment OOF- und Test-Dateien gespeichert werden, entsteht oft eine große Zahl solcher Dateien, die anschließend mit Meta-Modellen kombiniert werden können, etwa über Hill Climbing, Ridge- oder logistische Regression, NN- oder GBDT-Stacker.

Der Beitrag fasst den Nutzen dieses Vorgehens in der schnellen Erkundung vieler Ideen zusammen: GPU-beschleunigte Ausführung verkürzt die Laufzeit der Experimente, LLM-Agenten verkürzen die Zeit für die Implementierung. Als weiterführende Hinweise nennt NVIDIA cuDF, cuML, CUDA-X for data science, einen DLI-Workshop zu Feature Engineering und einen früheren Beitrag mit Modellierungstechniken für tabellarische Daten.

Quelle

Originalquelle: NVIDIA Technical Blog

Recent Articles

spot_img

Related Stories

Leave A Reply

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein

Stay on op - Ge the daily news in your inbox