Onderzoekers van het Tongyi Lab van Alibaba hebben een nieuw raamwerk ontwikkeld voor zelfontwikkelende agenten die hun eigen trainingsgegevens creëren door hun applicatieomgevingen te verkennen. Het raamwerk, AgentEvolvermaakt gebruik van de kennis en het redeneervermogen van grote taalmodellen voor autonoom leren, waarbij de hoge kosten en handmatige inspanningen worden aangepakt die doorgaans nodig zijn om taakspecifieke datasets te verzamelen.
Uit experimenten blijkt dat AgentEvolver, vergeleken met traditionele raamwerken op basis van versterkend leren, efficiënter is in het verkennen van zijn omgeving, beter gebruik maakt van gegevens en zich sneller aanpast aan applicatieomgevingen. Voor ondernemingen is dit belangrijk omdat het de drempel verlaagt voor het opleiden van agenten voor op maat gemaakte applicaties, waardoor krachtige, op maat gemaakte AI-assistenten toegankelijker worden voor een breder scala aan organisaties.
De hoge kosten voor het trainen van AI-agenten
Versterkend leren is een belangrijk paradigma geworden voor het trainen van LLM’s om op te treden als agenten die kunnen communiceren met digitale omgevingen en kunnen leren van feedback. Het ontwikkelen van agenten met RL staat echter voor fundamentele uitdagingen. Ten eerste is het verzamelen van de noodzakelijke trainingsdatasets vaak onbetaalbaar, waardoor er veel handwerk nodig is om voorbeelden van taken te creëren, vooral in nieuwe of propriëtaire softwareomgevingen waar geen kant-en-klare datasets beschikbaar zijn.
Ten tweede vereisen de RL-technieken die gewoonlijk voor LLM’s worden gebruikt dat het model een groot aantal vallen en opstaan-pogingen moet doorlopen om effectief te leren. Dit proces is rekenkundig kostbaar en inefficiënt. Als gevolg hiervan blijft het trainen van capabele LLM-agenten via RL arbeidsintensief en duur, waardoor de inzet ervan in aangepaste bedrijfsomgevingen wordt beperkt.
Hoe AgentEvolver werkt
Het belangrijkste idee achter AgentEvolver is om modellen meer autonomie te geven in hun eigen leerproces. De onderzoekers omschrijven het als een ‘zichzelf ontwikkelend agentsysteem’, ontworpen om ‘autonome en efficiënte capaciteitsevolutie te bereiken door middel van interactie met de omgeving’. Het maakt gebruik van de redeneerkracht van een LLM om een zelftrainingslus te creëren, waardoor de agent voortdurend kan verbeteren door directe interactie met zijn doelomgeving zonder vooraf gedefinieerde taken of beloningsfuncties nodig te hebben.
“We stellen ons een agentsysteem voor waarin de LLM actief de verkenning, het genereren van taken en het verfijnen van prestaties begeleidt”, schreven de onderzoekers in hun papier.
Het zelfevolutieproces wordt aangedreven door drie kernmechanismen die samenwerken.
De eerste is zichzelf in vraag stellenwaarbij de agent zijn omgeving verkent om de grenzen van zijn functies te ontdekken en nuttige toestanden te identificeren. Het is alsof een nieuwe gebruiker door een applicatie klikt om te zien wat er mogelijk is. Op basis van deze verkenning genereert de agent zijn eigen diverse reeks taken die aansluiten bij de algemene voorkeuren van een gebruiker. Dit vermindert de behoefte aan handgemaakte datasets en zorgt ervoor dat de agent en zijn taken samen kunnen evolueren, waardoor hij steeds complexere uitdagingen kan aangaan.
Volgens Yunpeng Zhai, onderzoeker bij Alibaba en co-auteur van het artikel, die met VentureBeat sprak, verandert het zelfondervragingsmechanisme het model effectief van een ‘dataconsument in een dataproducent’, waardoor de tijd en kosten die nodig zijn om een agent in een eigen omgeving in te zetten dramatisch worden verminderd.
Het tweede mechanisme is zelfnavigerendwat de efficiëntie van de verkenning verbetert door ervaringen uit het verleden te hergebruiken en te generaliseren. AgentEvolver haalt inzichten uit zowel succesvolle als mislukte pogingen en gebruikt deze om toekomstige acties te begeleiden. Als een agent bijvoorbeeld een API-functie probeert te gebruiken die niet in een applicatie bestaat, registreert hij dit als een ervaring en leert hij het bestaan van functies te verifiëren voordat hij deze in de toekomst probeert te gebruiken.
Het derde mechanisme, zelf toeschrijvendverbetert de leerefficiëntie door meer gedetailleerde feedback te geven. In plaats van slechts een definitief succes- of mislukkingssignaal (een gebruikelijke praktijk bij RL die kan resulteren in schaarse beloningen), gebruikt dit mechanisme een LLM om de bijdrage van elke individuele actie in een uit meerdere stappen bestaande taak te beoordelen. Het bepaalt achteraf of elke stap positief of negatief heeft bijgedragen aan het uiteindelijke resultaat, waardoor de agent fijnmazige feedback krijgt die het leren versnelt.
Dit is van cruciaal belang voor gereguleerde sectoren, waar de manier waarop een agent een probleem oplost net zo belangrijk is als het resultaat. “In plaats van een leerling alleen te belonen voor het uiteindelijke antwoord, evalueren we ook de duidelijkheid en juistheid van elke stap in zijn of haar redenering”, legt Zhai uit. Dit verbetert de transparantie en moedigt de agent aan om robuustere en controleerbare probleemoplossingspatronen aan te nemen.
“Door het trainingsinitiatief te verschuiven van door mensen ontworpen pijpleidingen naar LLM-geleide zelfverbetering, vestigt AgentEvolver een nieuw paradigma dat de weg vrijmaakt voor schaalbare, kosteneffectieve en voortdurend verbeterende intelligente systemen”, aldus de onderzoekers.
Het team heeft ook een praktisch, end-to-end trainingsframework ontwikkeld dat deze drie mechanismen integreert. Een belangrijk onderdeel van deze stichting is de Contextmanagereen component die het geheugen en de interactiegeschiedenis van de agent regelt. Terwijl de huidige benchmarks een beperkt aantal tools testen, kunnen echte bedrijfsomgevingen duizenden API’s bevatten.
Zhai erkent dat dit een kernuitdaging is voor het veld, maar merkt op dat AgentEvolver is ontworpen om te worden uitgebreid. “Het ophalen van extreem grote actieruimten zal altijd rekenproblemen met zich meebrengen, maar de architectuur van AgentEvolver biedt een duidelijk pad naar schaalbaar redeneren van tools in bedrijfsomgevingen”, zegt hij.
Een efficiënter pad naar agenttraining
Om de effectiviteit van hun raamwerk te meten, testten de onderzoekers het AppWereld En BFCLv3twee benchmarks waarbij agenten lange, uit meerdere stappen bestaande taken moeten uitvoeren met behulp van externe tools. Ze gebruikten modellen van Alibaba Qwen2.5-familie (7B- en 14B-parameters) en vergeleken hun prestaties met een basismodel dat was getraind met GRPO, een populaire RL-techniek die wordt gebruikt om redeneermodellen te ontwikkelen zoals DeepSeek-R1.
De resultaten toonden aan dat de integratie van alle drie de mechanismen in AgentEvolver tot aanzienlijke prestatieverbeteringen leidde. Voor het 7B-model verbeterde de gemiddelde score met 29,4%, en voor het 14B-model steeg deze met 27,8% ten opzichte van de basislijn. Het raamwerk verbeterde op consistente wijze de redeneer- en taakuitvoeringsmogelijkheden van de modellen in beide benchmarks. De belangrijkste verbetering kwam van de module voor zelfonderzoek, die autonoom diverse trainingstaken genereert en het probleem van dataschaarste direct aanpakt.
De experimenten hebben ook aangetoond dat AgentEvolver op efficiënte wijze een grote hoeveelheid hoogwaardige trainingsgegevens kan synthetiseren. De taken die door de zelfbevragingsmodule werden gegenereerd, bleken divers genoeg om zelfs met een kleine hoeveelheid gegevens een goede trainingsefficiëntie te bereiken.
Voor ondernemingen biedt dit de mogelijkheid om agenten te creëren voor op maat gemaakte applicaties en interne workflows, terwijl de noodzaak voor handmatige gegevensannotatie wordt geminimaliseerd. Door doelen op hoog niveau te bieden en de agent zijn eigen trainingservaringen te laten genereren, kunnen organisaties op eenvoudigere en kosteneffectievere wijze aangepaste AI-assistenten ontwikkelen.
“Deze combinatie van algoritmisch ontwerp en technische pragmatiek positioneert AgentEvolver als zowel een onderzoeksvoertuig als een herbruikbare basis voor het bouwen van adaptieve, met tools uitgeruste agenten”, concluderen de onderzoekers.
Vooruitkijkend is het uiteindelijke doel veel groter. “Een echt ‘singulier model’ dat in elke softwareomgeving kan worden geïnstalleerd en er van de ene op de andere dag meester van kan worden, is zeker de heilige graal van agentische AI”, aldus Zhai. “Wij zien AgentEvolver als een noodzakelijke stap in die richting.” Hoewel die toekomst nog steeds doorbraken in modelredenering en infrastructuur vereist, effenen zelfontwikkelende benaderingen de weg.



