Home Nieuws ‘Observationeel geheugen’ verlaagt de kosten van AI-agenten met een factor 10 en...

‘Observationeel geheugen’ verlaagt de kosten van AI-agenten met een factor 10 en overtreft RAG op lange-contextbenchmarks

4
0
‘Observationeel geheugen’ verlaagt de kosten van AI-agenten met een factor 10 en overtreft RAG op lange-contextbenchmarks

RAG is niet altijd snel genoeg of intelligent genoeg voor moderne agentische AI-workflows. Naarmate teams overstappen van kortstondige chatbots naar langlopende, gereedschapsintensieve agenten die in productiesystemen zijn ingebed, worden deze beperkingen steeds moeilijker te omzeilen.

Als reactie hierop experimenteren teams met alternatieve geheugenarchitecturen, ook wel genoemd contextueel geheugen of agentisch geheugen – die voorrang geven aan persistentie en stabiliteit boven dynamisch ophalen.

Een van de recentere implementaties van deze aanpak is ‘observationeel geheugen’. een open-sourcetechnologie ontwikkeld door Mastra, opgericht door de ingenieurs die eerder de Gatsby-framework voor Netlify.

In tegenstelling tot RAG-systemen die context dynamisch ophalen, gebruikt observationeel geheugen twee achtergrondagenten (Observer en Reflector) om de gespreksgeschiedenis te comprimeren in een gedateerd observatielogboek. De gecomprimeerde observaties blijven in hun context, waardoor het ophalen volledig wordt geëlimineerd. Voor tekstinhoud bereikt het systeem een ​​compressie van 3-6x. Voor agentwerklasten die veel gereedschap vereisen en grote output genereren, liggen de compressieverhoudingen tussen de 5 en 40x.

De wisselwerking is dat het observationele geheugen prioriteit geeft aan wat de agent al heeft gezien en besloten boven het doorzoeken van een breder extern corpus, waardoor het minder geschikt wordt voor het ontdekken van kennis met een open einde of voor gebruiksscenario’s die veel naleving vereisen.

Het systeem scoorde 94,87% op LongMemEval met behulp van GPT-5-mini, terwijl het een volledig stabiel, cachebaar contextvenster handhaafde. Op het standaard GPT-4o-model scoorde het observationele geheugen 84,23%, vergeleken met Mastra’s eigen RAG-implementatie op 80,05%.

“Het heeft de geweldige eigenschap dat het zowel eenvoudiger als krachtiger is, alsof het beter scoort op de benchmarks”, vertelde Sam Bhagwat, medeoprichter en CEO van Mastra, aan VentureBeat.

Hoe het werkt: Twee agenten comprimeren de geschiedenis tot observaties

De architectuur is eenvoudiger dan traditionele geheugensystemen, maar levert betere resultaten op.

Observationeel geheugen verdeelt het contextvenster in twee blokken. De eerste bevat observaties: gecomprimeerde, gedateerde aantekeningen uit eerdere gesprekken. De tweede bevat de onbewerkte berichtgeschiedenis van de huidige sessie.

Twee achtergrondagenten beheren het compressieproces. Wanneer niet-geobserveerde berichten 30.000 tokens bereiken (configureerbaar), comprimeert de Observer-agent ze tot nieuwe observaties en voegt ze toe aan het eerste blok. De originele berichten worden verwijderd. Wanneer observaties 40.000 tokens bereiken (ook configureerbaar), herstructureert en condenseert de Reflector-agent het observatielogboek, waarbij gerelateerde items worden gecombineerd en verouderde informatie wordt verwijderd.

“De manier waarop je deze berichten in de loop van de tijd comprimeert, is dat je eigenlijk gewoon berichten ontvangt, en dan laat een agent zeggen: ‘Oké, dus wat zijn de belangrijkste dingen die je moet onthouden uit deze reeks berichten?'” zei Bhagwat. “Je comprimeert het een beetje, en dan krijg je nog eens 30.000 tokens, en je comprimeert dat.”

Het formaat is op tekst gebaseerd en niet op gestructureerde objecten. Geen vectordatabases of grafiekdatabases vereist.

Stabiele contextvensters verlagen de tokenkosten tot 10x

De economische aspecten van observationeel geheugen komen voort uit snelle caching. Anthropic, OpenAI en andere providers verlagen de tokenkosten met 4-10x voor in de cache opgeslagen prompts ten opzichte van prompts die niet in de cache zijn opgeslagen. De meeste geheugensystemen kunnen hier geen voordeel uit halen, omdat ze de prompt elke beurt veranderen door dynamisch opgehaalde context te injecteren, waardoor de cache ongeldig wordt. Voor productieteams vertaalt die instabiliteit zich rechtstreeks in onvoorspelbare kostencurves en moeilijker te budgetteren werklasten voor agenten.

Observationeel geheugen houdt de context stabiel. Het observatieblok kan alleen worden toegevoegd totdat de reflectie wordt uitgevoerd, wat betekent dat de systeemprompt en bestaande observaties een consistent voorvoegsel vormen dat over vele beurten in de cache kan worden opgeslagen. Berichten worden steeds aan het onbewerkte geschiedenisblok toegevoegd totdat de drempel van 30.000 tokens wordt bereikt. Elke beurt daarvoor is een volledige cachetreffer.

Wanneer observatie wordt uitgevoerd, worden berichten vervangen door nieuwe observaties die aan het bestaande observatieblok worden toegevoegd. Het observatievoorvoegsel blijft consistent, zodat het systeem nog steeds een gedeeltelijke cachetreffer krijgt. Alleen tijdens reflectie (die niet vaak wordt uitgevoerd) wordt de volledige cache ongeldig gemaakt.

De gemiddelde contextvenstergrootte voor Mastra’s LongMemEval-benchmarkrun was ongeveer 30.000 tokens, veel kleiner dan de volledige gespreksgeschiedenis zou vereisen.

Waarom dit verschilt van traditionele verdichting

De meeste codeermiddelen gebruiken compactie om lange contexten te beheren. Door compactie wordt het contextvenster helemaal gevuld en wordt de hele geschiedenis vervolgens gecomprimeerd tot een samenvatting wanneer deze op het punt staat over te lopen. De agent gaat verder, het venster wordt opnieuw gevuld en het proces herhaalt zich.

Compaction produceert samenvattingen in documentatiestijl. Het geeft de essentie weer van wat er is gebeurd, maar verliest specifieke gebeurtenissen, beslissingen en details. De compressie gebeurt in grote batches, waardoor elke doorgang rekentechnisch duur wordt. Dat werkt voor de menselijke leesbaarheid, maar het ontneemt vaak de specifieke beslissingen en instrumentinteracties die agenten nodig hebben om in de loop van de tijd consistent te handelen.

De Observer daarentegen wordt vaker uitgevoerd en verwerkt kleinere stukjes. In plaats van het gesprek samen te vatten, produceert het een op gebeurtenissen gebaseerd beslissingslogboek: een gestructureerde lijst van gedateerde, geprioriteerde observaties over wat er specifiek is gebeurd. Elke observatiecyclus verwerkt minder context en comprimeert deze efficiënter.

Het logboek wordt nooit samengevat in een blob. Zelfs tijdens reflectie reorganiseert en condenseert de Reflector de waarnemingen om verbanden te vinden en overbodige gegevens te verwijderen. Maar de op gebeurtenissen gebaseerde structuur blijft bestaan. Het resultaat leest als een logboek van beslissingen en acties, en niet als documentatie.

Enterprise-gebruiksscenario’s: Langlopende agentgesprekken

De klanten van Mastra omvatten verschillende categorieën. Sommigen bouwen in-app-chatbots voor CMS-platforms zoals Sanity of Contentful. Anderen creëren AI SRE-systemen waarmee technische teams waarschuwingen kunnen beoordelen. Documentverwerkende agenten verzorgen het papierwerk voor traditionele bedrijven die op weg zijn naar automatisering.

Wat deze use cases gemeen hebben, is de behoefte aan langlopende gesprekken die de context gedurende weken of maanden behouden. Een agent ingebed in een contentmanagementsysteem moet onthouden dat de gebruiker drie weken geleden om een ​​specifiek rapportformaat vroeg. Een SRE-agent moet bijhouden welke waarschuwingen zijn onderzocht en welke beslissingen zijn genomen.

“Een van de grote doelen voor 2025 en 2026 is het bouwen van een agent in hun webapp”, zei Bhagwat over B2B SaaS-bedrijven. “Die agent moet zich kunnen herinneren dat je mij drie weken geleden hierover hebt gevraagd, of dat je zei dat je een rapport wilde over dit soort inhoudstype, of weergaven gesegmenteerd op basis van deze statistiek.”

In die scenario’s is geheugen niet langer een optimalisatie, maar wordt het een productvereiste. Gebruikers merken het onmiddellijk wanneer agenten eerdere beslissingen of voorkeuren vergeten.

Observationeel geheugen houdt maanden aan gespreksgeschiedenis aanwezig en toegankelijk. De agent kan reageren terwijl hij de volledige context onthoudt, zonder dat de gebruiker voorkeuren of eerdere beslissingen opnieuw hoeft uit te leggen.

Het systeem werd geleverd als onderdeel van Mastra 1.0 en is nu beschikbaar. Het team heeft deze week plug-ins uitgebracht voor LangChain, Vercel’s AI SDK en andere frameworks, waardoor ontwikkelaars observationeel geheugen buiten het Mastra-ecosysteem kunnen gebruiken.

Wat het betekent voor productie-AI-systemen

Observationeel geheugen biedt een andere architecturale benadering dan de vectordatabase en RAG-pijplijnen die de huidige implementaties domineren. De eenvoudigere architectuur (op tekst gebaseerd, geen gespecialiseerde databases) maakt het eenvoudiger om fouten op te sporen en te onderhouden. Het stabiele contextvenster maakt agressieve caching mogelijk die de kosten verlaagt. De benchmarkprestaties suggereren dat de aanpak op schaal kan werken.

Voor bedrijfsteams die geheugenbenaderingen evalueren, zijn de belangrijkste vragen:

  • Hoeveel context moeten uw agenten tijdens sessies behouden?

  • Wat is uw tolerantie voor compressie met verlies versus zoeken op volledig corpus?

  • Heeft u de dynamische retrieval nodig die RAG biedt, of zou een stabiele context beter werken?

  • Zijn uw agenten veel gereedschap nodig en genereren ze grote hoeveelheden uitvoer die gecomprimeerd moeten worden?

De antwoorden bepalen of observationeel geheugen bij uw gebruiksscenario past. Bhagwat positioneert het geheugen als een van de belangrijkste primitieven die nodig zijn voor goed presterende agenten, naast het gebruik van tools, workfloworkestratie, waarneembaarheid en vangrails. Voor bedrijfsagenten die in producten zijn ingebed, is het vergeten van de context tussen sessies onaanvaardbaar. Gebruikers verwachten dat agenten hun voorkeuren, eerdere beslissingen en lopende werkzaamheden onthouden.

“Het moeilijkste voor teams die agenten bouwen, is de productie, die tijd kan kosten”, zei Bhagwat. “Het geheugen is daarin een heel belangrijk onderdeel, omdat het gewoon schokkend is als je een of ander middel gebruikt en je vertelt het iets en dan vergat het het gewoon.”

Naarmate agenten overstappen van experimenten naar ingebedde registratiesystemen, kan de manier waarop teams het geheugen ontwerpen net zo belangrijk zijn als welk model ze kiezen.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in