Home Nieuws GAM richt zich op ‘contextrot’: een dual-agent geheugenarchitectuur die beter presteert dan...

GAM richt zich op ‘contextrot’: een dual-agent geheugenarchitectuur die beter presteert dan LLM’s met een lange context

6
0
GAM richt zich op ‘contextrot’: een dual-agent geheugenarchitectuur die beter presteert dan LLM’s met een lange context

Ondanks al hun bovenmenselijke kracht lijden de huidige AI-modellen aan een verrassend menselijke fout: ze vergeten. Geef een AI-assistent een uitgebreid gesprek, een redeneertaak die uit meerdere stappen bestaat of een dagenlang project, en uiteindelijk raakt hij de draad kwijt. Ingenieurs noemen dit fenomeen ‘contextrot’ en het is stilletjes een van de belangrijkste obstakels geworden voor het bouwen van AI-agenten die betrouwbaar kunnen functioneren in de echte wereld.

Een onderzoeksteam uit China en Hong Kong gelooft dat het een oplossing heeft gevonden voor contextrot. Hun nieuwe artikel introduceert algemeen agentisch geheugen (GAM)een systeem dat is gebouwd om informatie over de lange horizon te behouden zonder het model te overweldigen. Het uitgangspunt is simpel: het geheugen opsplitsen in twee gespecialiseerde rollen, één die alles vastlegt, en een andere die precies de juiste dingen op het juiste moment ophaalt.

De eerste resultaten zijn bemoedigend en kunnen niet beter getimed worden. Terwijl de industrie verder gaat dan snelle engineering en de bredere discipline van context-engineering omarmt, komt GAM precies op het juiste keerpunt naar voren.

Wanneer grotere contextvensters nog steeds niet genoeg zijn

In de kern van elk groot taalmodel (LLM) ligt een rigide beperking: een vast ‘werkgeheugen’, beter bekend als het contextvenster. Zodra gesprekken lang duren, wordt oudere informatie ingekort, samengevat of stilzwijgend geschrapt. Deze beperking wordt al lang erkend door AI-onderzoekers, en sinds begin 2023 werken ontwikkelaars aan het uitbreiden van contextvensters, waardoor de hoeveelheid informatie die een model in één keer kan verwerken snel toeneemt.

Mistral’s Mixtral 8x7B debuteerde met een 32K-token-venster, dat ongeveer 24 tot 25 woorden omvat, of ongeveer 128 tekens in het Engels; in wezen een kleine hoeveelheid tekst, zoals een enkele zin. Dit werd gevolgd door de MPT-7B-StoryWriter-65k+ van MozaïekML, die die capaciteit meer dan verdubbelde; daarna kwamen Google’s Gemini 1.5 Pro en Anthropic’s Claude 3, die enorme 128K- en 200K-vensters bieden, die beide uitbreidbaar zijn tot een ongekend miljoen tokens. Zelfs Microsoft deed mee aan de push en sprong van de 2K-tokenlimiet van de eerdere Phi-modellen naar het 128K-contextvenster van Phi-3.

Het vergroten van contextvensters klinkt misschien als de voor de hand liggende oplossing, maar dat is het niet. Zelfs modellen met uitgestrekte vensters van 100.000 tokens, genoeg om honderden pagina’s tekst te bevatten, hebben nog steeds moeite om zich details te herinneren die aan het begin van een lang gesprek verborgen zijn. Het schalen van context brengt zijn eigen reeks problemen met zich mee. Naarmate prompts langer worden, worden modellen minder betrouwbaar in het lokaliseren en interpreteren van informatie, omdat de aandacht voor tokens op afstand verzwakt en de nauwkeurigheid geleidelijk aan erodeert.

Langere inputs verdunnen ook de signaal-ruisverhouding, omdat het opnemen van elk mogelijk detail de reacties zelfs slechter kan maken dan het gebruik van een gerichte prompt. Lange prompts vertragen modellen ook; meer invoertokens leiden tot een merkbaar hogere latentie van uitvoertokens, waardoor een praktische limiet ontstaat voor hoeveel context kan worden gebruikt voordat de prestaties eronder lijden.

Herinneringen zijn van onschatbare waarde

Voor de meeste organisaties hebben supergrote contextvensters een duidelijk nadeel: ze zijn kostbaar. Het verzenden van enorme prompts via een API is nooit goedkoop, en omdat de prijzen rechtstreeks worden geschaald met invoertokens, kan zelfs een enkel opgeblazen verzoek de kosten opdrijven. Snel caching helpt, maar niet genoeg om de gewoonte te compenseren om modellen routinematig te overbelasten met onnodige context. En dat is de spanning die de kern van het probleem vormt: geheugen is essentieel om AI krachtiger te maken.

Terwijl contextvensters zich uitstrekken tot honderdduizenden of miljoenen tokens, stijgt de financiële overhead net zo sterk. Het opschalen van de context is zowel een technische als een economische uitdaging, en vertrouwen op steeds grotere vensters wordt al snel een onhoudbare strategie voor het langetermijngeheugen.

Oplossingen zoals samenvatting en retrieval-augmented generatie (RAG) zijn ook geen wondermiddeltjes. Samenvattingen ontdoen onvermijdelijk subtiele maar belangrijke details, en traditionele RAG, hoewel sterk in statische documenten, heeft de neiging kapot te gaan wanneer informatie zich over meerdere sessies uitstrekt of in de loop van de tijd evolueert. Zelfs nieuwere varianten, zoals agentic RAG en RAG 2.0 (die beter presteren bij het sturen van het ophaalproces), erven nog steeds dezelfde fundamentele fout: het behandelen van terughalen als de oplossing, in plaats van het geheugen zelf als het kernprobleem te behandelen.

Compilers hebben dit probleem tientallen jaren geleden opgelost

Als geheugen het echte knelpunt is en het ophalen dit niet kan oplossen, dan heeft het gat een ander soort oplossing nodig. Dat is de inzet achter GAM. In plaats van te doen alsof het ophalen geheugen is, houdt GAM een volledige, verliesvrije registratie bij en voegt daar een slimme, on-demand herinnering aan toe, waardoor de exacte details die een agent nodig heeft weer naar boven komen, zelfs als gesprekken zich ontwikkelen. Een nuttige manier om GAM te begrijpen is via een bekend idee uit de software-engineering: Just-in-time (JIT)-compilatie. In plaats van een rigide, zwaar gecomprimeerd geheugen vooraf te berekenen, houdt GAM de zaken licht en strak door een minimale set aanwijzingen op te slaan, samen met een volledig, onaangeroerd archief van rauwe geschiedenis. Wanneer er vervolgens een verzoek binnenkomt, wordt er direct een op maat gemaakte context samengesteld.

Deze JIT-aanpak is ingebouwd in de dubbele architectuur van GAM, waardoor AI context kan doorgeven aan lange gesprekken zonder te veel te comprimeren of te vroeg te raden wat belangrijk is. Het resultaat is de juiste informatie, op precies het juiste moment.

Inside GAM: een systeem met twee agenten, gebouwd voor duurzaam geheugen

GAM draait om het simpele idee om de handeling van het herinneren te scheiden van het herinneren, waarbij treffend twee componenten betrokken zijn: de ‘memorizer’ en de ‘onderzoeker’.

De memorizer: totale herinnering zonder overbelasting

De memorizer legt elke uitwisseling volledig vast en zet elke interactie stilletjes om in een beknopte memo, terwijl de volledige, gedecoreerde sessie bewaard blijft in een doorzoekbare paginaopslag. Het comprimeert niet agressief en raadt niet wat belangrijk is. In plaats daarvan organiseert het interacties in gestructureerde pagina’s, voegt het metadata toe voor efficiënt ophalen en genereert het optionele lichtgewicht samenvattingen voor snel scannen. Cruciaal is dat elk detail behouden blijft en niets wordt weggegooid.

De onderzoeker: een diepe retrieval-engine

Wanneer de agent actie moet ondernemen, neemt de onderzoeker het roer over om een ​​zoekstrategie te plannen, waarbij insluitingen worden gecombineerd met trefwoordmethoden zoals BM25, door pagina-ID’s wordt genavigeerd en de stukken aan elkaar worden gehecht. Het voert gelaagde zoekopdrachten uit in de paginaopslag, waarbij het wordt gemengd vector ophalentrefwoordmatching en directe zoekopdrachten. Het evalueert bevindingen, identificeert lacunes en gaat door met zoeken totdat het voldoende bewijsmateriaal heeft om een ​​zelfverzekerd antwoord te geven, net zoals een menselijke analist oude aantekeningen en primaire documenten doorneemt. Het itereert, zoekt, integreert en reflecteert totdat het een duidelijke, taakspecifieke briefing opbouwt.

GAM 2

De kracht van GAM komt voort uit deze JIT-geheugenpijplijn, die op verzoek rijke, taakspecifieke context samenvoegt in plaats van te steunen op broze, vooraf berekende samenvattingen. De kerninnovatie is eenvoudig maar krachtig, omdat alle informatie intact blijft en elk detail herstelbaar wordt.

Ablatiestudies ondersteunen deze aanpak: traditioneel geheugen faalt op zichzelf en naïef ophalen is niet voldoende. Het is de combinatie van een compleet archief met een actieve, iteratieve onderzoeksengine waarmee GAM details naar boven kan halen die andere systemen achterlaten.

Beter presteren dan RAG- en lange-contextmodellen

Om GAM te testen, hebben de onderzoekers het vergeleken met standaard RAG-pijpleidingen en modellen met vergrote contextvensters zoals GPT-4o-mini en Qwen2.5-14B. Ze evalueerden GAM met behulp van vier grote lange-context- en geheugenintensieve benchmarks, elk gekozen om een ​​ander aspect van de mogelijkheden van het systeem te testen:

  • LoCoMo meet het vermogen van een agent om informatie vast te houden en terug te roepen tijdens lange gesprekken die meerdere sessies duren, inclusief single-hop, multi-hop, temporeel redeneren en open-domeintaken.

  • Hotpotqaeen veelgebruikte multi-hop QA-benchmark opgebouwd op basis van Wikipedia, werd aangepast met behulp van de geheugenstresstestversie van MemAgent, die relevante documenten combineert met afleiders om contexten van 56K-, 224K- en 448K-tokens te creëren – ideaal om te testen hoe goed GAM omgaat met luidruchtige, uitgestrekte invoer.

  • LINIAAL evalueert de nauwkeurigheid van het ophalen, het volgen van multi-hop-statussen, aggregatie over lange reeksen en QA-prestaties onder een context van 128K-token om de redenering over de lange horizon verder te onderzoeken.

  • NarratieveQA is een benchmark waarbij elke vraag moet worden beantwoord met behulp van de volledige tekst van een boek of filmscript; de onderzoekers hebben 300 voorbeelden onderzocht met een gemiddelde contextgrootte van 87.000 tokens.

Samen stelden deze datasets en benchmarks het team in staat om zowel het vermogen van GAM om gedetailleerde historische informatie te bewaren als de effectiviteit ervan bij het ondersteunen van complexe stroomafwaartse redeneringstaken te beoordelen.

GAM 3
GAM 4

GAM kwam als beste uit de bus in alle benchmarks. De grootste overwinning was op RULER, een benchmark voor het volgen van staten over lange afstanden. Opmerkelijk:

  • GAM overtrof de nauwkeurigheid van 90%.

  • RAG stortte in omdat belangrijke details verloren gingen in samenvattingen.

  • Lange-contextmodellen haperden omdat oudere informatie effectief ‘vervaagde’, zelfs als deze technisch aanwezig was.

Het is duidelijk dat grotere contextvensters niet de oplossing zijn. GAM werkt omdat het met precisie ophaalt in plaats van tokens op te stapelen.

GAM, context engineering en concurrerende benaderingen

Een slecht gestructureerde context, en niet de beperkingen van het model, is vaak de echte reden AI-agenten falen. GAM pakt dit aan door ervoor te zorgen dat niets permanent verloren gaat en dat de juiste informatie altijd kan worden teruggevonden, zelfs tot ver stroomafwaarts. De opkomst van de techniek valt samen met de huidige, bredere verschuiving in AI naar context engineering, of de praktijk van het vormgeven van alles wat een AI-model ziet: de instructies, geschiedenis, opgehaalde documenten, tools, voorkeuren en uitvoerformaten.

Context-engineering heeft het belang van snelle engineering snel overschaduwd, hoewel andere onderzoeksgroepen het geheugenprobleem vanuit verschillende invalshoeken benaderen. Anthropic onderzoekt samengestelde, evoluerende contexttoestanden. DeepSeek experimenteert met het opslaan van geheugen als afbeeldingen. Een andere groep Chinese onderzoekers heeft ‘semantische besturingssystemen’ voorgesteld die zijn gebouwd rond levenslang adaptief geheugen.

De filosofie van GAM is echter verschillend: verlies vermijden en met intelligentie terugvinden. In plaats van te raden wat er later toe zal doen, bewaart het alles en gebruikt het een speciale onderzoeksengine om de relevante stukken tijdens runtime te vinden. Voor agenten die meerdaagse projecten, doorlopende workflows of langdurige relaties afhandelen, kan die betrouwbaarheid essentieel blijken.

Waarom GAM belangrijk is voor de lange termijn

Net zoals het toevoegen van meer rekenkracht niet automatisch betere algoritmen oplevert, zal het uitbreiden van contextvensters alleen de langetermijngeheugenproblemen van AI niet oplossen. Zinvolle vooruitgang vereist een heroverweging van het onderliggende systeem, en GAM hanteert die aanpak. In plaats van afhankelijk te zijn van steeds grotere modellen, enorme contextvensters of eindeloos verfijnde aanwijzingen, beschouwt het geheugen als een technische uitdaging – een uitdaging die profiteert van structuur in plaats van brute kracht.

Naarmate AI-agenten overstappen van slimme demo’s naar missiekritieke tools, wordt hun vermogen om lange geschiedenissen te onthouden cruciaal voor het ontwikkelen van betrouwbare, intelligente systemen. Bedrijven hebben AI-agenten nodig die evoluerende taken kunnen volgen, de continuïteit kunnen handhaven en eerdere interacties met precisie en nauwkeurigheid kunnen oproepen. GAM biedt een praktisch pad naar die toekomst en geeft aan wat de volgende grote grens in AI zou kunnen zijn: geen grotere modellen, maar slimmere geheugensystemen en de contextarchitecturen die deze mogelijk maken.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in