In 2025 is het steeds duidelijker geworden dat Retrieval Augmented Generation (RAG) niet voldoende is om te voldoen aan de groeiende gegevensvereisten voor agentische AI.
RAG is de afgelopen jaren uitgegroeid tot de standaardbenadering voor het verbinden van LLM’s met externe kennis. Het patroon is eenvoudig: documenten opsplitsen, ze in vectoren insluiten, ze opslaan in een database en de meest vergelijkbare passages ophalen wanneer er vragen binnenkomen. Dit werkt adequaat voor eenmalige vragen over statische documenten. Maar de architectuur gaat kapot als AI-agenten in meerdere sessies moeten opereren, de context in de loop van de tijd moeten behouden of onderscheid moeten maken tussen wat ze hebben waargenomen en wat ze geloven.
Een nieuwe open source-geheugenarchitectuur genaamd Hindsight pakt deze uitdaging aan door het geheugen van AI-agenten te organiseren in vier afzonderlijke netwerken die wereldfeiten, agentervaringen, gesynthetiseerde entiteitssamenvattingen en evoluerende overtuigingen onderscheiden. Het systeem, ontwikkeld door Vectorize.io in samenwerking met Virginia Tech en The Washington Post een nauwkeurigheid van 91,4% behaald op de LongMemEval-benchmark, waarmee het beter presteert dan bestaande geheugensystemen.
“RAG ligt aan de levensonderhoud en het geheugen van de agent staat op het punt het volledig te vernietigen”, zegt Chris Latimer, medeoprichter en CEO van Vectorize.iovertelde VentureBeat in een exclusief interview. “Het grootste deel van de bestaande RAG-infrastructuur die mensen hebben opgezet, presteert niet op het niveau dat ze zouden willen.”
Waarom RAG niet overweg kan met het langetermijngeheugen van agenten
RAG is oorspronkelijk ontwikkeld als een aanpak om LLM’s toegang te geven tot informatie die verder gaat dan hun trainingsgegevens zonder het model opnieuw te hoeven trainen.
Het kernprobleem is dat RAG alle opgehaalde informatie op uniforme wijze behandelt. Een feit dat zes maanden geleden werd waargenomen, krijgt dezelfde behandeling als een gisteren gevormde mening. Informatie die eerdere verklaringen tegenspreekt, staat naast de oorspronkelijke beweringen, zonder mechanisme om deze met elkaar te verzoenen. Het systeem beschikt niet over een manier om onzekerheid weer te geven, na te gaan hoe overtuigingen zijn geëvolueerd, of te begrijpen waarom het tot een bepaalde conclusie is gekomen.
Het probleem wordt acuut bij gesprekken die meerdere sessies duren. Wanneer een agent details moet ophalen van honderdduizenden tokens verspreid over tientallen sessies, overspoelen RAG-systemen het contextvenster met irrelevante informatie of missen ze cruciale details volledig. Vectorovereenkomst alleen kan niet bepalen wat belangrijk is voor een bepaalde vraag, wanneer die vraag inzicht vereist in temporele relaties, causale ketens of entiteitsspecifieke context die zich in de loop van weken heeft verzameld.
“Als je een one-size-fits-all benadering van het geheugen hebt, draag je óf te veel context mee die je niet zou moeten dragen, óf je draagt te weinig context mee”, zegt Naren Ramakrishnan, hoogleraar informatica bij Virginia Tech en directeur van het Sangani Center for AI and Data Analytics, tegen VentureBeat.
De verschuiving van RAG naar agentisch geheugen met achteraf bekijken
De verschuiving van RAG naar agentgeheugen vertegenwoordigt een fundamentele architecturale verandering.
In plaats van het geheugen te behandelen als een externe ophaallaag die stukjes tekst in prompts dumpt, integreert Hindsight het geheugen als een gestructureerd, eersteklas substraat voor redeneren.
De kerninnovatie in Hindsight is de scheiding van kennis in vier logische netwerken. Het wereldnetwerk slaat objectieve feiten op over de externe omgeving. Het banknetwerk legt de eigen ervaringen en acties van de agent vast, geschreven in de eerste persoon. Het opinienetwerk handhaaft subjectieve oordelen met betrouwbaarheidsscores die worden bijgewerkt naarmate er nieuw bewijsmateriaal binnenkomt. Het observatienetwerk bevat voorkeursneutrale samenvattingen van entiteiten die zijn samengesteld uit onderliggende feiten.
Deze scheiding richt zich op wat onderzoekers ‘epistemische duidelijkheid’ noemen door bewijsmateriaal structureel te onderscheiden van gevolgtrekkingen. Wanneer een agent een mening vormt, wordt die overtuiging apart opgeslagen van de feiten die deze overtuiging ondersteunen, samen met een betrouwbaarheidsscore. Naarmate er nieuwe informatie binnenkomt, kan het systeem bestaande meningen versterken of verzwakken in plaats van alle opgeslagen informatie als even zeker te behandelen.
De architectuur bestaat uit twee componenten die nabootsen hoe het menselijk geheugen werkt.
TEMPR (Temporal Entity Memory Priming Retrieval) zorgt voor het vasthouden en oproepen van geheugen door vier parallelle zoekopdrachten uit te voeren: semantische vectorovereenkomst, trefwoordmatching via BM25, grafiekdoorloop door gedeelde entiteiten en temporele filtering voor tijdgebonden zoekopdrachten. Het systeem voegt resultaten samen met behulp van Reciprocal Rank Fusion en past een neurale reranker toe voor uiteindelijke precisie.
CARA (Coherent Adaptive Reasoning Agents) verzorgt voorkeursbewuste reflectie door configureerbare dispositieparameters in het redeneren te integreren: scepticisme, letterlijkheid en empathie. Hiermee wordt inconsistent redeneren tussen sessies aangepakt. Zonder voorkeursconditionering produceren agenten lokaal plausibele maar globaal inconsistente reacties omdat de onderliggende LLM geen stabiel perspectief heeft.
Achteraf behaalt de hoogste LongMemEval-score van 91%
Achteraf gezien is niet alleen theoretisch academisch onderzoek; de open-sourcetechnologie werd geëvalueerd op de LongMemEval-benchmark. De test evalueert agenten op gesprekken die tot 1,5 miljoen tokens over meerdere sessies omvatten, waarbij hun vermogen wordt gemeten om zich informatie te herinneren, door de tijd heen te redeneren en consistente perspectieven te behouden.
De LongMemEval-benchmark test of AI-agents realistische implementatiescenario’s aankunnen. Een van de belangrijkste uitdagingen waarmee ondernemingen worden geconfronteerd, zijn agenten die goed werken bij het testen, maar falen bij de productie. Achteraf gezien behaalde het een nauwkeurigheid van 91,4% op de benchmark, de hoogste score op de test.
De bredere reeks resultaten liet zien waar gestructureerd geheugen de grootste winst oplevert: vragen over meerdere sessies verbeterden van 21,1% naar 79,7%; temporeel redeneren steeg van 31,6% naar 79,7%; en vragen over kennisupdates verbeterden van 60,3% naar 84,6%.
“Het betekent dat uw agenten meer taken kunnen uitvoeren, nauwkeuriger en consistenter dan voorheen”, aldus Latimer. “Wat je hierdoor kunt doen, is een nauwkeurigere agent krijgen die meer bedrijfskritische bedrijfsprocessen kan afhandelen.”
Enterprise-implementatie en hyperscaler-integratie
Voor bedrijven die overwegen hoe ze Hindsight kunnen inzetten, is het implementatietraject eenvoudig. Het systeem draait als een enkele Docker-container en kan worden geïntegreerd met behulp van een LLM-wrapper die met elk taalmodel werkt.
“Het is een directe vervanging voor je API-aanroepen, en je begint onmiddellijk met het vullen van herinneringen”, zegt Latimer.
De technologie richt zich op bedrijven die de RAG-infrastructuur al hebben geïmplementeerd en niet de prestaties zien die ze nodig hebben. “Het grootste deel van de bestaande RAG-infrastructuur die mensen hebben opgezet, presteert niet op het niveau dat ze zouden willen, en ze zijn op zoek naar robuustere oplossingen die de problemen van bedrijven kunnen oplossen, wat doorgaans het onvermogen is om de juiste informatie op te halen om een taak te voltooien of een reeks vragen te beantwoorden”, aldus Latimer.
Vectorize werkt samen met hyperscalers om de technologie in cloudplatforms te integreren. Het bedrijf werkt actief samen met cloudproviders om hun LLM’s te ondersteunen met agentgeheugenmogelijkheden.
Wat dit betekent voor bedrijven
Voor bedrijven die toonaangevend zijn op het gebied van de adoptie van AI, vertegenwoordigt Hindsight een pad dat verder gaat dan de beperkingen van de huidige RAG-implementaties.
Organisaties die hebben geïnvesteerd in het ophalen van verbeterde generaties en die inconsistente prestaties van agenten zien, moeten evalueren of gestructureerd geheugen hun specifieke faalwijzen kan aanpakken. De technologie is met name geschikt voor toepassingen waarbij agenten de context gedurende meerdere sessies moeten behouden, in de loop van de tijd tegenstrijdige informatie moeten verwerken of hun redenering moeten uitleggen
“RAG is dood, en ik denk dat het geheugen van de agent het volledig zal doden”, zei Latimer.


