Home Nieuws Een parameter-add-on van 0,12% geeft AI-agents het werkgeheugen dat RAG niet kan

Een parameter-add-on van 0,12% geeft AI-agents het werkgeheugen dat RAG niet kan

Door

21 mei 2026

AI-agenten vergeten het. Elke keer dat een codeerassistent een foutopsporingsthread uit het oog verliest, of een data-analyseagent dezelfde context opnieuw opneemt die hij al heeft verwerkt, betaalt het team aan latentie, tokenkosten en broze workflows. De oplossing waar de meeste teams naar streven – het contextvenster uitbreiden of meer RAG toevoegen – wordt steeds duurder en werkt nog steeds niet betrouwbaar.

Om dit aan te pakken, hebben onderzoekers van Mind Lab en verschillende universiteiten voorgesteld delta-memeen efficiënte techniek die de historische informatie van het model comprimeert in een dynamisch bijgewerkte matrix zonder het model zelf te veranderen. De resulterende module voegt slechts 0,12% van de parameters van het backbone-model toe (vergeleken met 76,40% voor één toonaangevend alternatief) en presteert tegelijkertijd beter dan deze op geheugenintensieve benchmarks. Met Delta-mem kunnen modellen continu historische gegevens verzamelen en hergebruiken, waardoor de afhankelijkheid van enorme contextvensters of complexe externe ophaalmodules voor gedragscontinuïteit wordt verminderd.

De langgeheugenuitdaging

De conventionele oplossing is om eenvoudigweg alle informatie in het contextvenster van het model te dumpen.

Maar zoals Jingdi Lei, co-auteur van het artikel, aan VentureBeat vertelde, behandelen de huidige systemen het geheugen louter als een contextmanagementprobleem. “Ofwel blijven we het contextvenster uitbreiden, ofwel halen we meer documenten op via RAG”, legt Lei uit. “Deze benaderingen zijn nuttig en zullen belangrijk blijven, maar ze worden steeds duurder en brozer wanneer agenten moeten opereren in langdurige, uit meerdere stappen bestaande interacties, en ze werken niet echt als het menselijk geheugen, omdat ze meer op het opzoeken van documenten lijken.”

In bedrijfsomgevingen is het knelpunt niet alleen de vraag of het model toegang heeft tot de geschiedenis, maar ook of het die geschiedenis efficiënt, continu en met een lage latentie kan hergebruiken. Standaardaandachtsmechanismen brengen kwadratische rekenkosten met zich mee naarmate de reekslengte toeneemt. Bovendien garandeert het uitbreiden van het contextvenster niet dat het model de informatie daadwerkelijk effectief zal oproepen. Modellen hebben vaak last van contextdegradatie context rot naarmate ze overweldigd raken door meer (en vaak tegenstrijdige) informatie, ook al ondersteunen ze in theorie een miljoen tokens.

De onderzoekers pleiten voor geavanceerde geheugenmechanismen die historische informatie compact kunnen weergeven en deze dynamisch kunnen behouden tijdens interacties. Bestaande oplossingen brengen zware afwegingen met zich mee en vallen over het algemeen in drie paradigma’s uiteen:

Tekstueel geheugen: slaat de geschiedenis op als tekst die in de context wordt geïnjecteerd – beperkt door vensterlimieten en gevoelig voor informatieverlies onder compressie.
Buitenkanaal (RAG): codeert en haalt op uit externe modules – voegt latentie, integratiecomplexiteit en mogelijke verkeerde afstemming met de backbone toe.
Parametrisch: codeert geheugen in modelgewichten via adapters – statisch na training, kan zich niet aanpassen aan nieuwe informatie tijdens live interacties.

Binnen delta-mem

Om een compact en dynamisch bijgewerkt geheugen te bereiken, comprimeert delta-mem de eerdere interacties van een agent naar een “online staat van associatief geheugen” (OSAM). Deze toestand wordt gehandhaafd als een matrix met een vaste grootte die historische informatie bewaart, terwijl het onderliggende taalmodel bevroren blijft.

Voor bedrijfsworkflows vertaalt dit zich rechtstreeks naar het oplossen van operationele knelpunten. Lei merkte op dat een volhardende codeerassistent bijvoorbeeld “projectconventies, recente foutopsporingsstappen, gebruikersvoorkeuren of tussentijdse beslissingen in een workflow moet onthouden.” Op dezelfde manier kan een data-analyseagent “de taakstatus, aannames en eerdere observaties behouden terwijl hij meerdere tooloproepen herhaalt.”

Delta-mem-architectuur (bron: arXiv)

In plaats van herhaaldelijk alle relevante geschiedenis voor deze taken op te halen en opnieuw in te voegen, biedt de delta-mem-matrix een manier met weinig overhead om bruikbare interactietoestanden over te dragen binnen de voorwaartse berekening van het model.

Tijdens het genereren haalt het systeem geen onbewerkte tekstsegmenten op om aan de prompt toe te voegen. In plaats daarvan wordt de huidige verborgen status van de backbone LLM in de matrix geprojecteerd om oud geheugen op te halen. Deze bewerking extraheert contextrelevante associatieve geheugensignalen uit delta-mem. Deze signalen worden vervolgens omgezet in numerieke correcties die worden toegepast op de berekeningen van het model. Dit stuurt de redenering van het model op het moment van inferentie zonder de interne parameters ervan te veranderen.

Na elke interactie werkt delta-mem de online status bij met behulp van ‘delta-rule learning’. Wanneer er nieuwe informatie binnenkomt, doet de vorige toestand een voorspelling over de resulterende aandachtswaarden. Vervolgens vergelijkt het deze voorspelling met de werkelijke waarde en corrigeert de geheugenmatrix op basis van de discrepantie.

Dit updatemechanisme is gebaseerd op een ‘gated delta-rule’. Kortom, de geheugenmodule heeft verschillende knoppen die bepalen hoeveel eerder geheugen wordt behouden en hoeveel van het nieuwe geheugen wordt toegepast. Deze foutcorrectie met gecontroleerd vergeten zorgt ervoor dat de matrix in de loop van de tijd kan evolueren, waarbij stabiele historische associaties behouden blijven zonder te ontsporen door kortetermijnruis.

De onderzoekers onderzochten drie strategieën om te bepalen wanneer en hoe de matrix wordt bijgewerkt:

Token-status schrijven registreert fijnkorrelige veranderingen, maar is kwetsbaar voor kortetermijnruis.
Sequentiestatus schrijven Middelt tokens binnen een berichtsegment, waardoor updates worden gladgestreken ten koste van een aantal gelokaliseerde details.
Schrijven in meerdere staten ontleedt het geheugen in subtoestanden voor verschillende soorten informatie, zoals feiten of taakvoortgang.

Deltamem in actie

De onderzoekers evalueerden delta-mem over drie LLM-backbones: Qwen3-8B, Qwen3-4B-Instruct en SmolLM3-3B. Ze hebben het raamwerk geconfigureerd met een compacte 8×8-matrix. Het systeem is getest op algemene capaciteitsbenchmarks, waaronder HotpotQA, GPQA-Diamond en IFEval. Het werd ook geëvalueerd voor geheugenintensieve taken zoals LoCoMo, dat het conversatiegeheugen op lange termijn test, en Memory Agent Bench, dat retentie, ophalen, selectief vergeten en testtijdleren tijdens uitgebreide interacties beoordeelt.

Het raamwerk werd vergeleken met representatieve modellen van de drie bestaande geheugenparadigma’s: tekstuele geheugenbasislijnen (bijv. BM25 RAG, LLMLingua-2 en MemoryBank), parametrische systemen (Context2LoRA en MemGen) en de outside-channel benadering MLP Memory.

delta-mem-resultaten — Delta-mem verbetert de prestaties op belangrijke benchmarks in de sector (bron: arXiv)

Over de hele linie presteerde delta-mem volgens de onderzoekers beter dan de uitgangswaarden. Op de Qwen3-4B-Instruct-backbone behaalde de token-state schrijfvariant een gemiddelde score van 51,66%, waarmee hij met 46,79% gemakkelijk de Frozen Vanilla-backbone en de sterkste baseline, Context2LoRA, met 44,90% overtrof. Op de geheugenzware Memory Agent Bench steeg de gemiddelde score van 29,54% naar 38,85%. De prestaties op de specifieke subtaak voor leren op toetstijd zijn bijna verdubbeld van 26,14 naar 50,50.

De meest overtuigende bevindingen zijn echter de operationele efficiëntie van het systeem. De onderzoekers testten het raamwerk in een omgeving zonder context, waarbij de historische tekst volledig uit de context werd verwijderd. Zelfs zonder expliciete tekstherhaling kon delta-mem met succes contextrelevant bewijsmateriaal terugvinden in multi-hop-taken. De onderzoekers beweren dat het model eerdere interacties onthoudt zonder enorme hoeveelheden prompttokens te hoeven innemen.

Het raamwerk voegt ook slechts 4,87 miljoen trainbare parameters toe, wat slechts 0,12% van de Qwen3-4B-Instruct-backbone vertegenwoordigt. Ter vergelijking: de basislijn van het MLP-geheugen vereiste 3 miljard parameters, wat opschaalde tot 76,40% van de omvang van de backbone, terwijl het inferieure resultaten opleverde. Toen de promptlengte tijdens inferentietests werd opgeschaald naar 32.000 tokens, behield het raamwerk bijna exact dezelfde GPU-geheugenvoetafdruk als een standaard, ongewijzigd model. Het omzeilt de zware geheugenophoping die andere geavanceerde geheugensystemen zoals MemGen en MLP Memory beïnvloedt.

Verschillende updatestrategieën bleken nuttig, afhankelijk van de onderliggende modelcapaciteit. De sequentie-status schrijfstrategie was het meest effectief voor sterkere backbones zoals Qwen3-8B. Deze meer capabele modellen gebruiken schrijven op segmentniveau om updates glad te strijken en ruis op tokenniveau te verminderen. Omgekeerd zorgde de multi-state schrijfstrategie voor enorme prestatieverbeteringen voor kleinere backbones zoals SmolLM3-3B. Voor deze modellen met een lagere capaciteit bleek het scheiden van het geheugen in meerdere toestanden van cruciaal belang om informatie-interferentie te minimaliseren.

Delta-mem implementeren in de enterprise-stack

De onderzoekers hebben het vrijgegeven code voor delta-mem op GitHub en de gewichten voor hun getrainde adapters op knuffelend gezicht. Voor AI-engineeringteams die dit raamwerk in hun bestaande inferentiestapel willen integreren, vereist het proces minimale computerbronnen.

“In de praktijk zou een technisch team uitgaan van een bestaande, op instructies afgestemde backbone, de Delta-Mem-adaptermodules aan geselecteerde aandachtslagen koppelen, alleen de adapterparameters trainen op domeinrelevante multi-turn- of lange-contextgegevens… en vervolgens gevolgtrekkingen uitvoeren waarbij de geheugenstatus online wordt bijgewerkt tijdens de interactie, ” zei Lei. Cruciaal is dat teams geen enorm corpus voortraining nodig hebben. De trainingsgegevens hoeven alleen het gedrag van het doelgeheugen te weerspiegelen, zoals dialogen met meerdere beurten, sporen van agenten of domeinworkflows waarbij eerdere informatie latere beslissingen moet beïnvloeden.

Hoewel het comprimeren van de interactiegeschiedenis in een wiskundige matrix met een vaste grootte een enorme efficiëntie oplevert, brengt het ook compromissen met zich mee. Delta-mem is geen verliesloze vervanging voor expliciete tekstlogboeken of het ophalen van documenten. Omdat verschillende stukjes informatie binnen dezelfde beperkte toestand met elkaar concurreren, bestaat het risico dat het geheugen vermengt.

“Delta-Mem is handig wanneer het systeem een snelle, online, voortdurend bijgewerkte gedragsstatus nodig heeft”, zei Lei. “RAG is beter wanneer het systeem exacte feitelijke herinnering, citatie, naleving, controleerbaarheid of toegang tot een grote externe kennisbank nodig heeft.” Het onthouden van de werkstijl van een gebruiker of een redeneertraject dat uit meerdere stappen bestaat, past perfect bij delta-mem, terwijl het ophalen van een juridisch contract of een medische richtlijn in een vectordatabase moet blijven.

Dit betekent dat de meest realistische enterprise-architectuur in de toekomst een hybride aanpak is. Delta-mem fungeert als een lichtgewicht intern werkgeheugen, waardoor het minder nodig is om alles voortdurend op te halen of opnieuw af te spelen, terwijl RAG dient als de expliciete geheugenlaag met hoge capaciteit.

“Vooruitkijkend denk ik niet dat vectordatabases verouderd zullen raken,” zei Lei. “In plaats daarvan verwacht ik dat enterprise AI-stacks meer gelaagd zullen worden. We zullen waarschijnlijk werkgeheugen op de korte termijn in het model zien, expliciet geheugen op langere termijn in ophaalsystemen en beleids- of auditlagen die beslissen wat moet worden opgeslagen, opgehaald, vergeten of aan de gebruiker moet worden getoond.”

Nieuwsbron

Een parameter-add-on van 0,12% geeft AI-agents het werkgeheugen dat RAG niet kan

De langgeheugenuitdaging

Binnen delta-mem

Deltamem in actie

Delta-mem implementeren in de enterprise-stack

LAAT EEN REACTIE ACHTER Annuleer reactie

EDITOR PICKS

Extreem hoog gewaardeerde sciencefictionthriller is de losgeslagen Mad Max-film waar je nog nooit van...

Top 7 groepsvideomakers voor naadloze samenwerking

AWS claimt 90% vectorkostenbesparingen met S3 Vectors GA en noemt het ‘complementair’ – analisten...

Bij aardverschuivingen op het Indonesische eiland Java vallen 2 doden en 21 vermisten