Home Nieuws Met een nieuw raamwerk kunnen AI-agenten hun eigen vaardigheden herschrijven zonder het...

Met een nieuw raamwerk kunnen AI-agenten hun eigen vaardigheden herschrijven zonder het onderliggende model opnieuw te trainen

3
0
Met een nieuw raamwerk kunnen AI-agenten hun eigen vaardigheden herschrijven zonder het onderliggende model opnieuw te trainen

Een grote uitdaging bij het inzetten van autonome agenten is het bouwen van systemen die zich kunnen aanpassen aan veranderingen in hun omgeving zonder de noodzaak om de onderliggende grote taalmodellen (LLM’s) opnieuw te trainen.

Memento-vaardighedeneen nieuw raamwerk ontwikkeld door onderzoekers van meerdere universiteiten, pakt dit knelpunt aan door agenten de mogelijkheid te geven hun vaardigheden zelf te ontwikkelen. “Het voegt zijn voortdurend leren kunnen worden toegevoegd aan het bestaande aanbod in de huidige markt, zoals OpenClaw en Claude Code”, vertelde Jun Wang, co-auteur van het artikel, aan VentureBeat.

Memento-Skills fungeert als een evoluerend extern geheugen, waardoor het systeem zijn mogelijkheden geleidelijk kan verbeteren zonder het onderliggende model te wijzigen. Het raamwerk biedt een reeks vaardigheden die kunnen worden bijgewerkt en uitgebreid naarmate de agent feedback ontvangt van zijn omgeving.

Voor bedrijfsteams die agenten in de productie runnen, is dat van belang. Het alternatief – het verfijnen van modelgewichten of het handmatig opbouwen van vaardigheden – brengt aanzienlijke operationele overhead- en datavereisten met zich mee. Memento-Skills omzeilt beide.

De uitdagingen van het bouwen van zelfontwikkelende agenten

Zelfontwikkelende agenten zijn van cruciaal belang omdat ze de beperkingen van bevroren taalmodellen overwinnen. Als een model eenmaal is geïmplementeerd, blijven de parameters ervan vast, waardoor het wordt beperkt tot de kennis die tijdens de training is gecodeerd en alles wat in het onmiddellijke contextvenster past.

Door het model een externe geheugenondersteuning te geven, kan het worden verbeterd zonder het kostbare en langzame proces van herscholing. De huidige benaderingen van de aanpassing van agenten zijn echter grotendeels afhankelijk van handmatig ontworpen vaardigheden om nieuwe taken uit te voeren. Hoewel er automatische methoden voor het leren van vaardigheden bestaan, produceren deze meestal alleen teksthandleidingen die neerkomen op snelle optimalisatie. Andere benaderingen registreren eenvoudigweg trajecten van één taak die niet over verschillende taken heen worden overgedragen.

Bovendien vertrouwen deze agenten, wanneer ze relevante kennis voor een nieuwe taak proberen op te halen, doorgaans op semantische gelijkheidsrouters, zoals standaard dichte inbedding; een hoge semantische overlap garandeert geen gedragsnut. Een agent die vertrouwt op standaard RAG kan een script voor het opnieuw instellen van het wachtwoord ophalen om een ​​vraag over het verwerken van terugbetalingen op te lossen, simpelweg omdat de documenten bedrijfsterminologie delen.

“De meeste Retrieval-Augmented Generation (RAG)-systemen zijn afhankelijk van op gelijkenis gebaseerde retrieval. Wanneer vaardigheden echter worden weergegeven als uitvoerbare artefacten zoals markdown-documenten of codefragmenten, selecteert gelijkenis alleen mogelijk niet de meest effectieve vaardigheid”, aldus Wang.

Hoe Memento-Skills vaardigheden opslaat en bijwerkt

Om de beperkingen van de huidige agentische systemen op te lossen, hebben de onderzoekers Memento-Skills gebouwd. Het artikel beschrijft het systeem als “een generalistisch, voortdurend leerbaar LLM-agentsysteem dat functioneert als een agent-ontwerpende agent.” In plaats van een passief logboek bij te houden van gesprekken uit het verleden, creëert Memento-Skills een reeks vaardigheden die fungeren als een aanhoudend, evoluerend extern geheugen.

Reflectief leren lezen en schrijven (bron: arXiv)

Deze vaardigheden worden opgeslagen als gestructureerde prijsverlagingsbestanden en dienen als de evoluerende kennisbasis van de agent. Elk herbruikbaar vaardigheidsartefact bestaat uit drie kernelementen. Het bevat declaratieve specificaties die aangeven wat de vaardigheid is en hoe deze moet worden gebruikt. Het bevat gespecialiseerde instructies en aanwijzingen die de redenering van het taalmodel begeleiden. En het bevat de uitvoerbare code en helperscripts die de agent uitvoert om de taak daadwerkelijk op te lossen.

Memento-Skills bereikt voortdurend leren via het ‘Read-Write Reflective Learning’-mechanisme, dat geheugenupdates beschouwt als actieve beleidsiteratie in plaats van passieve datalogging. Wanneer de agent met een nieuwe taak wordt geconfronteerd, ondervraagt ​​de agent een gespecialiseerde skill router om de meest gedragsrelevante vaardigheid op te halen (niet alleen de semantisch meest vergelijkbare) en voert deze uit.

Nadat de agent de vaardigheid heeft uitgevoerd en feedback heeft ontvangen, reflecteert het systeem op de uitkomst om de leerlus te sluiten. In plaats van alleen maar een logboek bij te voegen van wat er is gebeurd, muteert het systeem actief zijn geheugen. Als de uitvoering mislukt, evalueert een orkestrator de tracering en herschrijft de vaardigheidsartefacten. Dit betekent dat het de code direct bijwerkt of vraagt ​​om de specifieke foutmodus te patchen. Indien nodig creëert het een geheel nieuwe vaardigheid.

Memento-Skills werkt ook de vaardighedenrouter bij via een offline leerproces in één stap dat leert van uitvoeringsfeedback in plaats van alleen tekstoverlap. “De echte waarde van een vaardigheid ligt in de manier waarop deze bijdraagt ​​aan de algehele workflow van agenten en de uitvoering verderop in de keten”, aldus Wang. “Daarom biedt versterkend leren een geschikter raamwerk, omdat het de agent in staat stelt vaardigheden te evalueren en te selecteren op basis van nut op de lange termijn.”

Memento-Skills-framework

Memento-Skills-framework (bron: arXiv)

Om achteruitgang in een productieomgeving te voorkomen, worden de geautomatiseerde vaardigheidsmutaties bewaakt door een automatische unit-testpoort. Het systeem genereert een synthetische testcase, voert deze uit via de bijgewerkte vaardigheid en controleert de resultaten voordat de wijzigingen in de globale bibliotheek worden opgeslagen.

Door de eigen uitvoerbare tools voortdurend te herschrijven en te verfijnen, maakt Memento-Skills een bevroren taalmodel mogelijk om een ​​robuust spiergeheugen op te bouwen en de mogelijkheden ervan geleidelijk van begin tot eind uit te breiden.

De zelfontwikkelende agent op de proef stellen

De onderzoekers evalueerden Memento-Skills op basis van twee strenge benchmarks. De eerste is Algemene AI-assistenten (GAIA), waarvoor complex redeneren in meerdere stappen, multimodaliteitsbeheer, surfen op het web en het gebruik van tools vereist zijn. De tweede is Het laatste examen van de mensheidof HLE, een benchmark op expertniveau die acht uiteenlopende academische onderwerpen omvat, zoals wiskunde en biologie. Het hele systeem werd aangedreven door Gemini-3.1-Flash fungeert als het onderliggende bevroren taalmodel.

Het systeem werd vergeleken met een Read-Write-basislijn die vaardigheden ophaalt en feedback verzamelt, maar geen zelfontwikkelende functies heeft. De onderzoekers testten hun aangepaste vaardigheidsrouter ook met standaard semantische ophaalbasislijnen, waaronder BM25 en Qwen3-inbedding.

Prestaties van herinneringsvaardigheden

Prestaties op de GAIA-benchmark (Memento-Skills vs Read-Write) (bron: arXiv)

De resultaten bewezen dat actief zichzelf ontwikkelend geheugen veel beter presteert dan een statische vaardighedenbibliotheek. Op de zeer diverse GAIA-benchmark verbeterde Memento-Skills de nauwkeurigheid van de testsets met 13,7 procentpunten ten opzichte van de statische basislijn, waardoor 66,0% werd bereikt vergeleken met 52,3%. Op de HLE-benchmark, waar de domeinstructuur massaal hergebruik van vaardigheden tussen verschillende taken mogelijk maakte, verdubbelde het systeem de prestaties van de basislijn meer dan, van 17,9% naar 38,7%.

Bovendien vermijdt de gespecialiseerde vaardighedenrouter van Memento-Skills de klassieke terughaalval waarbij een irrelevante vaardigheid wordt geselecteerd simpelweg vanwege semantische gelijkenis. Experimenten tonen aan dat Memento-Skills het succespercentage van end-to-end taken verhoogt tot 80%, vergeleken met slechts 50% voor standaard BM25-herstel.

De onderzoekers merkten op dat Memento-Skills deze prestaties beheert via een zeer organische, gestructureerde groei van vaardigheden. Beide benchmarkexperimenten begonnen met slechts vijf atomaire zaadvaardigheden, zoals basiszoeken op internet en terminalbewerkingen. Op de GAIA-benchmark heeft de agent deze zaadgroep autonoom uitgebreid tot een compacte bibliotheek van 41 vaardigheden om de diverse taken uit te voeren. Op de HLE-benchmark op expertniveau schaalde het systeem zijn bibliotheek dynamisch op naar 235 verschillende vaardigheden.

Ontwikkeling van vaardigheden voor herinneringsvaardigheden

Memento-Skills begint met een aantal vaardigheden (sterren) en ontwikkelt meer vaardigheden (cirkels) naarmate het taken oplost (bron: arXiv)

Het vinden van de goede plek voor de onderneming

De onderzoekers hebben de code vrijgegeven voor Memento-vaardigheden op GitHuben is direct beschikbaar voor gebruik.

Voor enterprise-architecten hangt de effectiviteit van dit systeem af van de afstemming van domeinen. In plaats van simpelweg naar benchmarkscores te kijken, ligt de kern van de zakelijke afweging in de vraag of uw agenten geïsoleerde taken of gestructureerde workflows uitvoeren.

“De overdracht van vaardigheden hangt af van de mate van gelijkenis tussen taken”, zei Wang. “Ten eerste, wanneer taken geïsoleerd zijn of zwak gerelateerd zijn, kan de agent niet vertrouwen op eerdere ervaringen en moet hij leren door middel van interactie.” In dergelijke verspreide omgevingen is de overdracht van taken tussen taken beperkt. “Ten tweede, wanneer taken een substantiële structuur delen, kunnen eerder verworven vaardigheden direct hergebruikt worden. Hier wordt het leren efficiënter omdat kennis over de taken heen wordt overgedragen, waardoor de agent goed kan presteren op nieuwe problemen met weinig of geen extra interactie.”

Aangezien het systeem terugkerende taakpatronen vereist om kennis te consolideren, moeten bedrijfsleiders precies weten waar ze dit vandaag moeten inzetten en waar ze moeten wachten.

“Workflows zijn waarschijnlijk de meest geschikte setting voor deze aanpak, omdat ze een gestructureerde omgeving bieden waarin vaardigheden kunnen worden samengesteld, geëvalueerd en verbeterd,” zei Wang.

Hij waarschuwde echter voor overmatige inzet in gebieden die nog niet geschikt zijn voor het kader. “Fysieke agenten blijven in deze context grotendeels onontgonnen en vereisen verder onderzoek. Bovendien kunnen taken met een langere horizon een meer geavanceerde aanpak vereisen, zoals LLM-systemen met meerdere agenten, om coördinatie, planning en duurzame uitvoering over langere reeksen beslissingen mogelijk te maken.”

Terwijl de industrie steeds meer in de richting gaat van agenten die autonoom hun eigen productiecode herschrijven, blijven bestuur en veiligheid voorop staan. Hoewel Memento-Skills gebruik maakt van fundamentele veiligheidsrails, zoals automatische unit-testpoorten, zal er waarschijnlijk een breder raamwerk nodig zijn voor adoptie door bedrijven.

“Om betrouwbare zelfverbetering mogelijk te maken, hebben we een goed ontworpen evaluatie- of beoordelingssysteem nodig dat de prestaties kan beoordelen en consistente begeleiding kan bieden”, aldus Wang. “In plaats van onbeperkte zelfmodificatie toe te staan, zou het proces moeten worden gestructureerd als een begeleide vorm van zelfontwikkeling, waarbij feedback de agent naar betere ontwerpen stuurt.”

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in