Microsoft Research stellt mit PlugMem ein aufgabenagnostisches Speichermodul für LLM-Agenten vor, das rohe Interaktionshistorien nicht als lange Textprotokolle speichert und abruft, sondern in strukturierte, wiederverwendbare Wissenseinheiten überführt. Ausgangspunkt ist die Beobachtung, dass umfangreichere Speicherbestände Agenten nicht automatisch helfen: Mit zunehmenden Interaktionslogs wachsen auch irrelevante Inhalte, was die Suche nach entscheidungsrelevanten Informationen erschwert.
Der Ansatz folgt einer Unterscheidung aus der Kognitionswissenschaft zwischen Ereignissen, Fakten und Handlungswissen. PlugMem soll deshalb aus Dialogen, Dokumenten und Web-Sitzungen nicht nur frühere Ereignisse konservieren, sondern kompakte Wissenseinheiten ableiten, die über Aufgaben hinweg wiederverwendbar sind.
Aufbau von PlugMem
Im Unterschied zu konventionellen Speichersystemen, die meist Textabschnitte oder benannte Entitäten speichern, nutzt PlugMem Fakten und wiederverwendbare Fähigkeiten als grundlegende Bausteine. Laut Microsoft Research soll das Redundanz verringern, die Informationsdichte erhöhen und den Abruf präziser machen.
Das System besteht aus drei Komponenten. Erstens werden rohe Interaktionen vereinheitlicht und in propositionales Wissen, also Fakten, sowie präskriptives Wissen, also wiederverwendbare Skills, umgewandelt. Diese Einheiten werden in einem strukturierten Memory-Graph organisiert. Zweitens ruft PlugMem keine langen Textpassagen ab, sondern Wissenseinheiten, die auf die aktuelle Aufgabe ausgerichtet sind. Hochrangige Konzepte und erschlossene Intentionen dienen dabei als Signale für das Routing der relevanten Informationen. Drittens wird das abgerufene Wissen in knappe, auf die Aufgabe zugeschnittene Hinweise verdichtet, bevor es in das Kontextfenster des Basis-Agenten gelangt.
Evaluation über verschiedene Aufgabentypen
Microsoft Research beschreibt PlugMem als allgemeine Speicherbasis, die ohne aufgabenspezifische Anpassung an unterschiedliche Agenten angeschlossen werden kann. Getestet wurde dasselbe Modul auf drei Benchmarks mit unterschiedlichen Anforderungen an das Gedächtnis: Beantwortung von Fragen in langen Multi-Turn-Konversationen, Auffinden von Fakten über mehrere Wikipedia-Artikel hinweg sowie Entscheidungsfindung beim Browsen im Web.
Über alle drei Benchmarks hinweg habe PlugMem sowohl generische Retrieval-Methoden als auch aufgabenspezifische Speicherdesigns konsistent übertroffen. Gleichzeitig habe der Agent dafür deutlich weniger Memory-Tokens benötigt.
Nutzen statt Größe des Speichers
Zur Bewertung führte das Team eine Metrik ein, die misst, wie viel nützliche, entscheidungsrelevante Information ein Speichermodul im Verhältnis zu dem von ihm verbrauchten Kontext liefert. Damit sollte erfasst werden, ob zur richtigen Zeit die richtigen Informationen im Modellkontext ankommen, ohne das begrenzte Kontextfenster zu überlasten.
In dieser Gegenüberstellung von Nutzen und Kontextverbrauch lag PlugMem den Autoren zufolge vor anderen Ansätzen: Das Modul habe mehr entscheidungsrelevante Information geliefert und dabei weniger Kontext verbraucht. Die Ergebnisse deuten nach Darstellung von Microsoft Research darauf hin, dass die Umwandlung von Erfahrungen in Wissen nützlicheren und effizienteren Speicher erzeugt als das reine Speichern und Abrufen roher Protokolle.
PlugMem soll aufgabenspezifische Verfahren nicht ersetzen, sondern eine allgemeine Grundlage bereitstellen, auf die zusätzliche Spezialisierungen aufgesetzt werden können. In den Experimenten führte die Kombination von PlugMem mit aufgabenspezifischen Techniken zu weiteren Verbesserungen. Code und experimentelle Ergebnisse wurden auf GitHub veröffentlicht.
