Home Nieuws MemRL presteert beter dan RAG op complexe agentbenchmarks zonder verfijning

MemRL presteert beter dan RAG op complexe agentbenchmarks zonder verfijning

Door

23 januari 2026

Een nieuwe techniek, ontwikkeld door onderzoekers van de Shanghai Jiao Tong Universiteit en andere instellingen, stelt grote taalmodelagenten in staat nieuwe vaardigheden te leren zonder de noodzaak van dure verfijning.

De onderzoekers stellen voor MemRLeen raamwerk dat agenten de mogelijkheid geeft om episodisch geheugen te ontwikkelen, het vermogen om ervaringen uit het verleden op te halen om oplossingen te creëren voor onzichtbare taken. Met MemRL kunnen agenten omgevingsfeedback gebruiken om hun probleemoplossende strategieën voortdurend te verfijnen.

MemRL maakt deel uit van een bredere impuls in de onderzoeksgemeenschap om zich te ontwikkelen voortdurend leren mogelijkheden voor AI-toepassingen. In experimenten met belangrijke industriële benchmarks presteerde het raamwerk beter dan andere basislijnen zoals RAG en andere geheugenorganisatietechnieken, vooral in complexe omgevingen die verkenning en experimenten vereisen. Dit suggereert dat MemRL een cruciaal onderdeel zou kunnen worden voor het bouwen van AI-applicaties die moeten werken in dynamische, realistische omgevingen waar eisen en taken voortdurend veranderen.

Het stabiliteits-plasticiteitsdilemma

Een van de centrale uitdagingen bij het inzetten van agentische applicaties is het aanpassen van het onderliggende model aan nieuwe kennis en taken na de initiële trainingsfase. De huidige benaderingen vallen over het algemeen in twee categorieën: parametrische benaderingen, zoals fijnafstemmingen niet-parametrische benaderingen, zoals RAG. Maar beide brengen aanzienlijke compromissen met zich mee.

Hoewel het fijnafstemmen effectief is bij het verwerken van nieuwe informatie, is het rekentechnisch duur en traag. Wat nog belangrijker is, het leidt vaak tot catastrofaal vergeteneen fenomeen waarbij nieuw verworven kennis eerder geleerde gegevens overschrijft, waardoor de algemene prestaties van het model worden verslechterd.

Omgekeerd zijn niet-parametrische methoden zoals RAG fundamenteel passief; ze halen informatie op die uitsluitend is gebaseerd op semantische gelijkenis, zoals vectorinbedding, zonder het daadwerkelijke nut van de informatie voor de invoerquery te evalueren. Deze benadering gaat ervan uit dat ‘soortgelijk nuttig impliceert’, wat vaak gebrekkig is bij complexe redeneringstaken.

De onderzoekers beweren dat de menselijke intelligentie dit probleem oplost door ‘het delicate evenwicht tussen de stabiliteit van cognitief redeneren en de plasticiteit van het episodisch geheugen’ te behouden. In het menselijk brein is stabiel redeneren (geassocieerd met de cortex) losgekoppeld van het dynamische episodisch geheugen. Hierdoor kunnen mensen zich aanpassen aan nieuwe taken zonder ‘neurale circuits opnieuw te bedraden’ (het ruwe equivalent van modelverfijning).

Binnen het MemRL-framework

Geïnspireerd door het gebruik van episodisch geheugen en cognitief redeneren door mensen, is MemRL ontworpen om een agent in staat te stellen zijn prestaties na inzet voortdurend te verbeteren zonder de stabiliteit van zijn backbone LLM in gevaar te brengen. In plaats van de parameters van het model te veranderen, verschuift het raamwerk het aanpassingsmechanisme naar een externe, zichzelf ontwikkelende geheugenstructuur.

In deze architectuur blijven de parameters van de LLM volledig bevroren. Het model fungeert effectief als de ‘cortex’, verantwoordelijk voor algemene redenering, logica en codegeneratie, maar is niet verantwoordelijk voor het opslaan van specifieke successen of mislukkingen die zich na de implementatie voordoen. Deze structuur zorgt voor stabiel cognitief redeneren en voorkomt catastrofaal vergeten.

MemRL-framework (bron: arXiv)

Om de aanpassing aan te kunnen, onderhoudt MemRL een dynamische episodische geheugencomponent. In plaats van platte tekstdocumenten en statische inbeddingswaarden op te slaan, zoals gebruikelijk is in RAG, organiseert MemRL het geheugen in “intent-ervaring-utility”-tripletten. Deze bevatten de vraag van de gebruiker (de intentie), het specifieke oplossingstraject of de ondernomen actie (de ervaring) en een score, bekend als de Q-waarde, die weergeeft hoe succesvol deze specifieke ervaring in het verleden was (het nut).

Cruciaal voor enterprise-architecten is dat deze nieuwe datastructuur niet vereist dat de bestaande infrastructuur wordt weggenomen. “MemRL is ontworpen als een ‘drop-in’ vervanging voor de ophaallaag in bestaande technologiestapels en is compatibel met verschillende vectordatabases”, vertelde Muning Wen, co-auteur van het artikel en promovendus aan de Shanghai Jiao Tong University, aan VentureBeat. “Het bestaan en het updaten van ‘Q-Value’ is uitsluitend bedoeld voor een betere evaluatie en beheer van dynamische gegevens… en is onafhankelijk van het opslagformaat.”

Deze nutsscore is de belangrijkste onderscheidende factor ten opzichte van klassieke RAG-systemen. Op het moment van inferentie maken MemRL-agenten gebruik van een “tweefasig ophaalmechanisme”. Ten eerste identificeert het systeem herinneringen die semantisch dicht bij de vraag liggen om de relevantie te garanderen. Vervolgens worden deze kandidaten opnieuw gerangschikt op basis van hun Q-waarde, waarbij effectief prioriteit wordt gegeven aan bewezen strategieën.

Het raamwerk integreert versterkend leren rechtstreeks in het geheugenherstelproces. Wanneer een agent een oplossing probeert en omgevingsfeedback ontvangt (dwz succes of mislukking), wordt de Q-waarde van het opgehaalde geheugen bijgewerkt. Hierdoor ontstaat een gesloten feedbacklus: na verloop van tijd leert de agent afleidende herinneringen te negeren en prioriteit te geven aan hoogwaardige strategieën zonder ooit de onderliggende LLM opnieuw te hoeven trainen.

Hoewel het toevoegen van een leerstap voor versterking klinkt alsof het een aanzienlijke latentie toevoegt, merkte Wen op dat de rekenkundige overhead minimaal is. “Onze Q-waardeberekening wordt volledig op de CPU uitgevoerd”, zei hij.

MemRL beschikt ook over continue leermogelijkheden tijdens runtime. Wanneer de agent een nieuw scenario tegenkomt, gebruikt het systeem de bevroren LLM om het nieuwe traject samen te vatten en voegt het als een nieuw triplet toe aan de geheugenbank. Hierdoor kan de agent zijn kennisbasis dynamisch uitbreiden terwijl hij met de wereld communiceert.

Het is vermeldenswaard dat de automatisering van de waardetoekenning een risico met zich meebrengt: als het systeem per ongeluk een slechte interactie valideert, kan de agent de verkeerde les leren. Wen erkent dit risico van “vergiftigd geheugen”, maar merkt op dat MemRL, in tegenstelling tot neurale black-box-netwerken, transparant en controleerbaar blijft. “Als een slechte interactie ten onrechte als een positief voorbeeld wordt geclassificeerd… kan deze zich breder verspreiden”, zei Wen. “Maar… we kunnen dit eenvoudig oplossen door de vervuilde gegevens uit de geheugenbank te verwijderen of hun Q-waarden opnieuw in te stellen.”

MemRL in actie

De onderzoekers evalueerden MemRL aan de hand van verschillende basislijnen op vier verschillende industriebenchmarks: BigCodeBench (codegeneratie), ALFWorld (embody navigatie), Lifelong Agent Bench (OS en database-interactie) en Humanity’s Last Exam (complex multidisciplinair redeneren).

De resultaten toonden aan dat MemRL consistent beter presteerde dan de basislijnen in zowel runtime leren (verbetering tijdens de sessie) als transferleren (generaliseren naar onzichtbare taken).

MemRL-prestaties op belangrijke benchmarks in de sector (bron: arXiv)

De voordelen van dit waardebewuste ophaalmechanisme waren het meest uitgesproken in omgevingen waarin veel onderzoek wordt gedaan, zoals ALFWorld. In deze benchmark, waarbij agenten moeten navigeren en communiceren met een gesimuleerde huishoudelijke omgeving, behaalde MemRL een relatieve verbetering van ongeveer 56% ten opzichte van MemPeen ander agentisch geheugenframework. De onderzoekers ontdekten dat de versterkende leercomponent de agent effectief aanmoedigde om oplossingen te verkennen en te ontdekken voor complexe taken die op gelijkenis gebaseerde ophaalmethoden vaak niet konden oplossen.

Toen de geheugenbank werd bevroren en getest op uitgestelde sets om de generalisatie te meten, behaalde MemRL de hoogste nauwkeurigheid in alle benchmarks. Op de Lifelong Agent Bench verbeterde het bijvoorbeeld aanzienlijk ten opzichte van de standaard RAG-basislijn voor OS-taken. Dit geeft aan dat het systeem niet alleen trainingsgegevens onthoudt, maar effectief herinneringen van lage waarde filtert om ervaringen met een hoog nut te behouden die generaliseren naar nieuwe situaties.

Het bredere plaatje voor zelfontwikkelende agenten

MemRL past binnen een groeiend aantal onderzoeken gericht op Memory-Based Markov Decision Processes (M-MDP), een formulering die het ophalen van herinneringen beschouwt als een actieve besluitvormingsstap in plaats van als een passieve zoekfunctie. Door het ophalen te behandelen als een actie die kan worden geoptimaliseerd via versterkend leren, kunnen raamwerken zoals MemRL en vergelijkbare benaderingen zoals Aandenken maken de weg vrij voor meer autonome systemen.

Voor zakelijke AI is deze verschuiving aanzienlijk. Het suggereert een toekomst waarin agenten kunnen worden ingezet met een LLM voor algemene doeleinden en zich vervolgens snel kunnen aanpassen aan specifieke bedrijfsworkflows, eigen databases en unieke probleemsets, alleen al door interactie. De belangrijkste verschuiving die we zien is dat raamwerken applicaties behandelen als dynamische omgevingen waarvan ze kunnen leren.

Deze opkomende mogelijkheden zullen organisaties in staat stellen om consistente, krachtige agenten in dienst te houden die meegroeien met hun bedrijfsbehoeften, waardoor het probleem van verouderde modellen wordt opgelost zonder de onbetaalbare kosten van voortdurende herscholing.

Het markeert een transitie in de manier waarop we data waarderen. “In een toekomst waarin statische gegevens op het punt staan uitgeput te raken, zal de interactie-ervaring die elke intelligente agent tijdens zijn levensduur genereert, de nieuwe brandstof worden”, aldus Wen.

Nieuwsbron

MemRL presteert beter dan RAG op complexe agentbenchmarks zonder verfijning

Het stabiliteits-plasticiteitsdilemma

Binnen het MemRL-framework

MemRL in actie

Het bredere plaatje voor zelfontwikkelende agenten

LAAT EEN REACTIE ACHTER Annuleer reactie

EDITOR PICKS

Venezuela noemt de oproep van Trump om het luchtruim te sluiten een ‘kolonialistische dreiging’:...

Zes doden bij brand in winkelcentrum Pakistan

Alles wat Apple heeft aangekondigd: M5-chips, iPhone 17e, nieuwe beeldschermen

Mijn vriendin houdt van design, dus ik heb haar een boogwekker van NanuElectrics gegeven