Microsoft Research veröffentlicht AgentRx zur systematischen Diagnose von Fehlern in KI-Agenten

Microsoft Research hat AgentRx als Open-Source-Framework veröffentlicht, um in Trajektorien von KI-Agenten den „Critical Failure Step“ zu lokalisieren, also den ersten nicht mehr behebbaren Fehlerschritt. Zusammen mit dem Framework erscheint der AgentRx Benchmark, ein Datensatz mit 115 manuell annotierten fehlgeschlagenen Trajektorien aus τ-bench, Flash und Magentic-One.

Ausgangspunkt ist, dass sich Fehler in modernen KI-Agenten nur schwer debuggen lassen. Die Trajektorien sind oft lang, probabilistisch und teils auf mehrere Agenten verteilt, sodass die eigentliche Ursache leicht verdeckt wird. Ein Fehler kann etwa in einem frühen Schritt entstehen, aber erst deutlich später sichtbar werden. Reine Erfolgsmetriken wie der Abschluss einer Aufgabe reichen deshalb nach Darstellung von Microsoft Research nicht aus, um den genauen Zeitpunkt und Grund eines Fehlschlags zu bestimmen.

AgentRx behandelt die Ausführung eines Agenten als Systemspur, die validiert werden kann. Dazu werden zunächst heterogene Logs aus verschiedenen Domänen in eine gemeinsame Zwischenrepräsentation überführt. Anschließend erzeugt das Framework ausführbare Constraints aus Tool-Schemata und Domänenrichtlinien, etwa dass eine API eine gültige JSON-Antwort liefern muss oder dass Daten nicht ohne Bestätigung durch den Nutzer gelöscht werden dürfen.

Diese Constraints werden im nächsten Schritt schrittweise ausgewertet. Dabei prüft AgentRx jede Bedingung nur dann, wenn die jeweilige Guard-Bedingung erfüllt ist, und protokolliert belegte Verstöße in einem auditierbaren Validierungslog. Auf dieser Grundlage bestimmt ein LLM-Judge mithilfe einer fundierten Fehlertaxonomie den Critical Failure Step.

Für die Auswertung wurde ein Benchmark mit 115 fehlgeschlagenen Trajektorien aus drei unterschiedlichen Bereichen erstellt: τ-bench für strukturierte API-Workflows in Handels- und Serviceaufgaben, Flash für Incident-Management und System-Fehlerbehebung in realen Umgebungen sowie Magentic-One für offene Web- und Datei-Aufgaben in einem allgemeinen Multi-Agenten-System. Auf Basis eines Grounded-Theory-Ansatzes leiteten die Forschenden zudem eine Taxonomie mit neun Fehlerkategorien ab, die domänenübergreifend anwendbar sein soll. Sie soll unter anderem zwischen einem „Plan Adherence Failure“ und einer „Invention of New Information“ unterscheiden.

In den beschriebenen Experimenten verbesserte AgentRx die Genauigkeit bei der Lokalisierung von Fehlern gegenüber LLM-basierten Prompting-Baselines um 23,6 Prozentpunkte. Bei der Zuordnung der Grundursache lag die Verbesserung bei 22,9 Prozent. Das Framework soll dabei nicht nur einen Fehlerschritt markieren, sondern über das Validierungslog auch die zugrunde liegenden Belege sichtbar machen.

Microsoft Research veröffentlicht sowohl das Framework als auch den vollständig annotierten Benchmark als Open Source. Im Projekt wurden laut Danksagung auch Avaljot Singh und Suman Nath genannt.

Quelle

Originalquelle: Microsoft Research

Recent Articles

spot_img

Related Stories

Leave A Reply

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein

Stay on op - Ge the daily news in your inbox