ADeLe (AI Evaluation with Demand Levels) beschreibt sowohl Aufgaben als auch Modelle mit denselben 18 Kernfaehigkeiten, darunter Aufmerksamkeit, Reasoning und Domain Knowledge. Fuer jede Aufgabe wird auf einer Skala von 0 bis 5 bewertet, wie stark sie die jeweilige Faehigkeit verlangt. Aus vielen solchen Bewertungen entsteht fuer ein Modell ein Faehigkeitsprofil, das zeigen soll, wo es gut abschneidet und wo es ausfaellt.
In der in Nature veroeffentlichten Arbeit General Scales Unlock AI Evaluation with Explanatory and Predictive Power beschreiben die Forschenden ADeLe als Alternative zu aggregierten Benchmark-Werten. Statt Evaluation als Sammlung einzelner Tests zu behandeln, repraesentiert der Ansatz Benchmarks und LLMs mit demselben Satz an Faehigkeitsscores. Diese Werte sollen genutzt werden koennen, um die Leistung auf unbekannten Aufgaben zu schaetzen und sie mit spezifischen Staerken und Schwaechen eines Modells zu verknuepfen.
Bei der Auswertung bestehender Benchmarks kommt das Team zu dem Ergebnis, dass viele verbreitete Tests die Faehigkeiten, die sie messen sollen, nicht sauber isolieren oder nur einen begrenzten Schwierigkeitsbereich abdecken. Ein Test fuer logisches Denken kann demnach zugleich stark von spezialisiertem Wissen oder Metakognition abhaengen. Andere Benchmarks lassen einfachere oder schwierigere Faelle aus. Durch die Einordnung nach benoetigten Faehigkeiten sollen solche Abweichungen sichtbar werden und sich Benchmarks gezielter analysieren oder entwerfen lassen.
Das Team wendete den Rahmen auf 15 LLMs an und erstellte fuer jede der 18 Faehigkeiten ein Profil mit Werten von 0 bis 5. Als Faehigkeitsscore wurde jeweils der Schwierigkeitsgrad verwendet, bei dem ein Modell eine Erfolgswahrscheinlichkeit von 50 Prozent erreicht. Die Analyse zeigt Unterschiede in Staerken und Schwaechen zwischen den Modellen. Neuere Modelle schneiden insgesamt oft besser ab als aeltere, aber nicht durchgaengig in allen Faehigkeiten. Bei wissenslastigen Aufgaben haengt die Leistung laut Text stark von Modellgroesse und Training ab, waehrend auf Reasoning ausgerichtete Modelle bei Logik, Lernen, Abstraktion und sozialer Inferenz erkennbare Zugewinne zeigen.
ADeLe soll zudem Vorhersagen ermoeglichen. Durch den Vergleich eines Modellprofils mit den Anforderungen einer Aufgabe laesst sich abschaetzen, ob ein Modell erfolgreich sein wird, auch bei unbekannten Aufgaben. In Experimenten erreichte der Ansatz fuer Modelle wie GPT-4o und LLaMA-3.1-405B laut Text eine Genauigkeit von etwa 88 Prozent und uebertraf traditionelle Methoden.
Am Beispiel von Reasoning beschreibt der Text, dass Unterschiede zwischen Studien haeufig aus unterschiedlichen Aufgabenanforderungen resultieren. Benchmarks, die als Reasoning-Tests bezeichnet werden, unterscheiden sich demnach deutlich darin, was sie tatsaechlich verlangen, von einfachem Problemloesen bis zu Aufgaben, die fortgeschrittene Logik, Abstraktion und Domain Knowledge kombinieren. Dasselbe Modell kann deshalb auf Aufgaben mit niedrigen Anforderungen ueber 90 Prozent und auf anspruchsvolleren Aufgaben unter 15 Prozent erreichen, ohne dass sich seine zugrunde liegende Faehigkeit geaendert hat.
Fuer auf Reasoning ausgerichtete Modelle wie OpenAI o1 und GPT-5 berichtet der Text messbare Zugewinne gegenueber Standardmodellen, nicht nur bei Logik und Mathematik, sondern auch beim Interpretieren von Nutzerintentionen. Zugleich sinkt die Leistung, wenn die Anforderungen einer Aufgabe steigen. ADeLe soll sichtbar machen, bis zu welchem Punkt ein Modell in den jeweiligen Faehigkeiten traegt.
Der Ansatz ist laut Microsoft Research so angelegt, dass er mit kuenftigen KI-Systemen mitwachsen und auf multimodale sowie embodied AI erweitert werden kann. Zudem wird ADeLe als moeglicher standardisierter Rahmen fuer KI-Forschung, Policymaking und Security Auditing beschrieben. Weitere Experimente, Benchmark-Annotationen und Ressourcen sind auf GitHub verfuegbar.
