Het geheugen van agenten blijft een probleem dat bedrijven willen oplossen, omdat agenten sommige instructies of gesprekken vergeten naarmate ze langer duren.
Antropisch gelooft dat zij dit probleem voor haar heeft opgelost Claude Agent-SDKwaarbij een tweevoudige oplossing wordt ontwikkeld waarmee een agent in verschillende contextvensters kan werken.
“De kernuitdaging van langlopende agenten is dat ze in afzonderlijke sessies moeten werken, en elke nieuwe sessie begint zonder herinnering aan wat eraan voorafging”, schreef Anthropic in een blogpost. “Omdat contextvensters beperkt zijn en omdat de meeste complexe projecten niet binnen één venster kunnen worden voltooid, hebben agenten een manier nodig om de kloof tussen codeersessies te overbruggen.”
Anthropic-ingenieurs stelden een tweevoudige aanpak voor voor de Agent SDK: een initialisatieagent om de omgeving op te zetten, en een codeeragent om in elke sessie stapsgewijs vooruitgang te boeken en artefacten voor de volgende achter te laten.
Het geheugenprobleem van de agent
Omdat agenten op basismodellen zijn gebouwd, blijven ze beperkt door de beperkte, hoewel voortdurend groeiende, contextvensters. Voor langlopende agenten kan dit een groter probleem veroorzaken, waardoor de agent instructies vergeet en zich abnormaal gedraagt tijdens het uitvoeren van een taak. Verbetering van het geheugen van agenten essentieel wordt voor consistente, bedrijfsveilige prestaties.
Het afgelopen jaar zijn er verschillende methoden op de markt gekomen, die allemaal probeerden de kloof tussen contextvensters en agentgeheugen te overbruggen. LangChain’s LangMem SDK, Memobasis En Open AI’s Swarm zijn voorbeelden van bedrijven die geheugenoplossingen aanbieden. Onderzoek naar agent-geheugen is de laatste tijd ook geëxplodeerd raamwerken zoals Memp en de Genest leerparadigma van Googlen het aanbieden van nieuwe alternatieven om het geheugen te verbeteren.
Veel van de huidige geheugenframeworks zijn open source en kunnen zich idealiter aanpassen aan verschillende grote taalmodellen (LLM’s) die agenten aandrijven. De aanpak van Anthropic verbetert de Claude Agent SDK.
Hoe het werkt
Anthropic stelde vast dat, hoewel de Claude Agent SDK mogelijkheden voor contextbeheer had en “voor een agent mogelijk zou moeten zijn om nuttig werk voor een willekeurig lange tijd te blijven doen”, dit niet voldoende was. Het bedrijf zegt in zijn blogpost dat het een model is zoals Opus 4.5 het uitvoeren van de Claude Agent SDK kan “niet voldoen aan het bouwen van een web-app van productiekwaliteit als deze alleen een prompt op hoog niveau krijgt, zoals ‘bouw een kloon van claude.ai.’”
De mislukkingen manifesteerden zich in twee patronen, zei Anthropic. Ten eerste probeerde de agent te veel te doen, waardoor het model in het midden uit zijn context raakte. De agent moet dan raden wat er is gebeurd en kan geen duidelijke instructies doorgeven aan de volgende agent. De tweede fout treedt later op, nadat sommige functies al zijn gebouwd. De agent ziet dat er vooruitgang is geboekt en verklaart gewoon dat de klus is geklaard.
Antropische onderzoekers hebben de oplossing uitgewerkt: het opzetten van een initiële omgeving om de basis te leggen voor functies en elke agent ertoe aan te zetten stapsgewijze vooruitgang te boeken in de richting van een doel, terwijl hij aan het einde nog steeds een schone lei achterlaat.
Dit is waar de tweedelige oplossing van de Anthropic-agent van pas komt. De initialisatieagent richt de omgeving in, registreert wat agenten hebben gedaan en welke bestanden zijn toegevoegd. De codeeragent zal de modellen vervolgens vragen om stapsgewijze vooruitgang te boeken en gestructureerde updates achter te laten.
“Inspiratie voor deze praktijken kwam voort uit de wetenschap wat effectieve software-ingenieurs elke dag doen”, aldus Anthropic.
De onderzoekers zeiden dat ze testtools aan de codeeragent hadden toegevoegd, waardoor het vermogen om bugs te identificeren en op te lossen die niet duidelijk uit de code alleen waren, werd verbeterd.
Toekomstig onderzoek
Anthropic merkte op dat zijn aanpak “één mogelijke reeks oplossingen is in een langlopend agentenharnas.” Dit is echter nog maar het beginstadium van wat voor velen in de AI-ruimte een breder onderzoeksgebied zou kunnen worden.
Het bedrijf zegt dat zijn experimenten om het langetermijngeheugen van agenten te vergroten niet hebben aangetoond of een enkele codeeragent voor algemene doeleinden het beste werkt in verschillende contexten of in een structuur met meerdere agenten.
De demo was ook gericht op de ontwikkeling van full-stack webapps, dus andere experimenten zouden zich moeten concentreren op het generaliseren van de resultaten over verschillende taken.
“Het is waarschijnlijk dat sommige of al deze lessen kunnen worden toegepast op de soorten langlopende agentische taken die nodig zijn in bijvoorbeeld wetenschappelijk onderzoek of financiële modellen”, aldus Anthropic.


