Terwijl agentische AI zich verplaatst van experimenten naar echte productieworkloads, komt een stil maar serieus infrastructuurprobleem in beeld: geheugen. Niet berekenen. Geen modellen. Geheugen.
Onder de motorkap hebben de huidige GPU’s simpelweg niet genoeg ruimte om de Key-Value (KV) caches te bevatten waar moderne, langlopende AI-agents van afhankelijk zijn om de context te behouden. Het resultaat is een hoop onzichtbare verspilling: GPU’s moeten het werk dat ze al hebben gedaan opnieuw doen, de kosten voor de cloud stijgen en de prestaties gaan achteruit. Het is een probleem dat al opduikt in productieomgevingen, ook al hebben de meeste mensen het nog niet benoemd.
Tijdens een recente stop op de VentureBeat AI Impact Series voegde WEKA CTO Shimon Ben-David zich bij VentureBeat CEO Matt Marshall om de opkomende ‘geheugenmuur’ van de industrie uit te pakken en waarom het een van de grootste blokkers aan het worden is voor het opschalen van werkelijk stateful agentische AI – systemen die zich in de loop van de tijd de context kunnen herinneren en daarop kunnen voortbouwen. Het gesprek stelde niet alleen het probleem vast; het introduceerde een nieuwe manier om volledig over geheugen na te denken, via een aanpak die WEKA token warehousing noemt.
Het GPU-geheugenprobleem
“Als we naar de infrastructuur van inferencing kijken, is het geen probleem met GPU-cycli. Het is vooral een GPU-geheugenprobleem”, aldus Ben-David.
De oorzaak van het probleem komt neer op de manier waarop transformatormodellen werken. Om antwoorden te genereren, vertrouwen ze op KV-caches die contextuele informatie opslaan voor elk token in een gesprek. Hoe langer het contextvenster, hoe meer geheugen deze caches verbruiken, en dit loopt snel op. Een enkele reeks van 100.000 tokens kan ongeveer 40 GB GPU-geheugen vereisen, merkte Ben-David op.
Dat zou geen probleem zijn als GPU’s onbeperkt geheugen hadden. Maar dat doen ze niet. Zelfs de meest geavanceerde GPU’s beschikken over ongeveer 288 GB geheugen met hoge bandbreedte (HBM), en die ruimte moet ook het model zelf bevatten.
In praktijkomgevingen met meerdere tenants wordt dit snel pijnlijk. Werklasten zoals het ontwikkelen van code of het verwerken van belastingaangiften zijn voor de context sterk afhankelijk van KV-cache.
“Als ik drie of vier PDF’s van 100.000 token in een model laad, is dat het dan – ik heb de KV-cachecapaciteit op HBM uitgeput”, aldus Ben-David. Dit is wat bekend staat als de geheugenmuur. “Plotseling wordt de inferentieomgeving gedwongen om gegevens te laten vallen”, voegde hij eraan toe.
Dat betekent dat GPU’s voortdurend context weggooien die ze binnenkort weer nodig zullen hebben, waardoor wordt voorkomen dat agenten stateful zijn en gesprekken en context in de loop van de tijd behouden blijven.
De verborgen gevolgtrekkingsbelasting
“We zien voortdurend dat GPU’s in inferentieomgevingen dingen herberekenen die ze al deden”, zegt Ben-David. Systemen vullen de KV-cache vooraf in, beginnen met het decoderen, hebben dan geen ruimte meer en verwijderen eerdere gegevens. Wanneer die context opnieuw nodig is, herhaalt het hele proces zich: vooraf invullen, decoderen, opnieuw vooraf invullen. Op grote schaal is dat een enorme hoeveelheid verspild werk. Het betekent ook verspilling van energie, extra latentie en een verminderde gebruikerservaring, terwijl de marges onder druk komen te staan.
Dat GPU-herberekeningsverlies verschijnt direct op de balans. Organisaties kunnen bijna 40% overhead lijden alleen al door overtollige prefill-cycli. Dit zorgt voor rimpeleffecten op de gevolgtrekkingsmarkt.
“Als je kijkt naar de prijzen van grote modelaanbieders zoals Anthropic en OpenAI, leren ze gebruikers feitelijk om hun prompts zo te structureren dat de kans groter wordt dat ze dezelfde GPU raken waarin hun KV-cache is opgeslagen”, aldus Ben-David. “Als je die GPU bereikt, kan het systeem de prefill-fase overslaan en onmiddellijk beginnen met decoderen, waardoor ze op efficiënte wijze meer tokens kunnen genereren.”
Maar dit lost nog steeds niet het onderliggende infrastructuurprobleem van de extreem beperkte GPU-geheugencapaciteit op.
Oplossen voor stateful AI
“Hoe klim je over die geheugenmuur heen? Hoe overwin je die? Dat is de sleutel tot moderne, kosteneffectieve gevolgtrekkingen,” zei Ben-David. “We zien dat meerdere bedrijven dat op verschillende manieren proberen op te lossen.”
Sommige organisaties implementeren nieuwe lineaire modellen die proberen kleinere KV-caches te creëren. Anderen zijn gericht op het aanpakken van cache-efficiëntie.
“Om efficiënter te zijn, gebruiken bedrijven omgevingen die de KV-cache op één GPU berekenen en deze vervolgens uit het GPU-geheugen proberen te kopiëren of daarvoor een lokale omgeving gebruiken”, legt Ben-David uit. “Maar hoe doe je dat op schaal, op een kosteneffectieve manier die je geheugen en je netwerk niet belast? Dat is iets waar WEKA onze klanten mee helpt.”
Door eenvoudigweg meer GPU’s naar het probleem te gooien, wordt de AI-geheugenbarrière niet opgelost. “Er zijn een aantal problemen waar je niet genoeg geld aan kunt besteden om ze op te lossen”, zei Ben-David.
Uitgebreid geheugen en opslag van tokens, uitgelegd
Het antwoord van WEKA is wat het augmented memory en token warehousing noemt – een manier om opnieuw na te denken over waar en hoe KV-cachegegevens leven. In plaats van te forceren dat alles in het GPU-geheugen past, breidt WEKA’s Augmented Memory Grid de KV-cache uit naar een snel, gedeeld “magazijn” binnen de NeuralMesh-architectuur.
In de praktijk verandert geheugen hierdoor van een harde beperking in een schaalbare hulpbron – zonder dat er gevolglatentie ontstaat. WEKA zegt dat klanten de KV-cachehitrates zien stijgen naar 96-99% voor agentic workloads, samen met efficiëntiewinsten van maximaal 4,2x meer tokens geproduceerd per GPU.
Ben-David zei het eenvoudig: “Stel je voor dat je 100 GPU’s hebt die een bepaald aantal tokens produceren. Stel je nu voor dat die honderd GPU’s werken alsof het 420 GPU’s zijn.”
Voor grote inferentieaanbieders is het resultaat niet alleen betere prestaties, maar vertaalt het zich ook direct in reële economische impact.
“Alleen al door die versnelde KV-cachelaag toe te voegen, kijken we naar enkele gebruiksscenario’s waarbij het besparingsbedrag miljoenen dollars per dag zou bedragen”, aldus Ben-David
Deze efficiëntievermenigvuldiger opent ook nieuwe strategische opties voor bedrijven. Platformteams kunnen stateful agents ontwerpen zonder zich zorgen te hoeven maken over het opblazen van geheugenbudgetten. Serviceproviders kunnen prijsniveaus aanbieden op basis van persistente context, waarbij in de cache opgeslagen gevolgtrekkingen tegen aanzienlijk lagere kosten worden geleverd.
Wat komt er daarna
NVIDIA voorspelt een honderdvoudige toename van de vraag naar inferenties nu agentische AI de dominante werklast wordt. Die druk sijpelt al door van hyperscalers naar alledaagse bedrijfsimplementaties – dit is niet alleen meer een ‘big tech’-probleem.
Nu ondernemingen van proofs of concept overstappen op echte productiesystemen, wordt geheugenpersistentie een kernprobleem op het gebied van de infrastructuur. Organisaties die dit als een architecturale prioriteit beschouwen en niet als een bijzaak, zullen een duidelijk voordeel behalen, zowel qua kosten als qua prestaties.
De geheugenmuur is niet iets waar organisaties eenvoudigweg meer geld aan kunnen besteden om deze te overwinnen. Naarmate agentische AI schaalbaarder wordt, is het een van de eerste beperkingen van de AI-infrastructuur die een diepere heroverweging afdwingt, en zoals de inzichten van Ben-David duidelijk maakten, kan het geheugen ook het punt zijn waar de volgende golf van concurrentiedifferentiatie begint.


