Onderzoekers van Nvidia hebben een techniek ontwikkeld die de geheugenkosten van het redeneren in grote taalmodellen tot acht keer kan verminderen. Hun techniek, genaamd dynamische geheugensparsificatie (DMS), comprimeert de sleutelwaardecache (KV), het tijdelijke geheugen dat LLM’s genereren en opslaan terwijl ze aanwijzingen verwerken en door problemen en documenten redeneren.
Hoewel onderzoekers al eerder verschillende methoden hebben voorgesteld om deze cache te comprimeren, hebben de meesten moeite om dit te doen zonder de intelligentie van het model aan te tasten. De aanpak van Nvidia slaagt erin een groot deel van de cache weg te gooien, terwijl de redeneermogelijkheden van het model behouden blijven (en in sommige gevallen worden verbeterd).
Experimenten tonen aan dat DMS LLM’s in staat stelt langer na te denken en meer oplossingen te verkennen zonder de gebruikelijke boetes in snelheid of geheugenkosten.
Het knelpunt van het redeneren
LLM’s verbeteren hun prestaties bij complexe taken door het genereren van “keten van gedachten“-tokens, waarbij ze in essentie hun redeneerstappen opschrijven voordat ze tot een definitief antwoord komen. Inferentie-tijd-schalingstechnieken maken hiervan gebruik door het model een groter budget te geven om deze denktokens te genereren of om meerdere potentiële redeneerpaden parallel te verkennen.
Deze verbeterde redenering brengt echter aanzienlijke rekenkosten met zich mee. Naarmate het model meer tokens genereert, bouwt het een KV-cache.
Voor toepassingen in de echte wereld is de KV-cache een groot knelpunt. Naarmate de redeneringsketen groeit, groeit de cache lineair, waardoor enorme hoeveelheden geheugen op GPU’s worden verbruikt. Dit dwingt de hardware om meer tijd te besteden aan het lezen van gegevens uit het geheugen dan aan het daadwerkelijk computeren, wat de generatie vertraagt en de latentie verhoogt. Het beperkt ook het aantal gebruikers dat een systeem tegelijkertijd kan bedienen, omdat een tekort aan VRAM ervoor zorgt dat het systeem crasht of langzamer gaat lopen.
Nvidia-onderzoekers beschouwen dit niet alleen als een technische hindernis, maar ook als een fundamentele economische hindernis voor de onderneming.
“De vraag gaat niet alleen over de hoeveelheid hardware; het gaat erom of uw infrastructuur 100 redeneringsthreads of 800 threads verwerkt voor dezelfde kosten”, vertelde Piotr Nawrot, Senior Deep Learning Engineer bij Nvidia, aan VentureBeat.
Eerdere pogingen om dit op te lossen waren gericht op op heuristieken gebaseerde benaderingen. Deze methoden gebruiken strenge regels, zoals een ‘schuifvenster’ dat alleen de meest recente tokens in de cache opslaat en de rest verwijdert. Hoewel dit het geheugengebruik vermindert, dwingt het het model vaak om kritische informatie die nodig is om het probleem op te lossen, weg te gooien, waardoor de nauwkeurigheid van de uitvoer afneemt.
“Standaard uitzettingsmethoden proberen oude en ongebruikte tokens te selecteren voor uitzetting met behulp van heuristieken”, aldus de onderzoekers. “Ze vereenvoudigen het probleem, in de hoop dat als ze de interne werking van het model benaderen, het antwoord correct zal blijven.”
Andere oplossingen maken gebruik van paging om de ongebruikte delen van de KV-cache over te brengen naar langzamer geheugen, maar het voortdurend uitwisselen van gegevens introduceert latentie-overhead waardoor real-time applicaties traag worden.
Dynamische geheugensparsificatie
DMS hanteert een andere aanpak door bestaande LLM’s “aan te passen” om hun eigen geheugen op intelligente wijze te beheren. In plaats van een vaste regel toe te passen voor wat er moet worden verwijderd, traint DMS het model om te identificeren welke tokens essentieel zijn voor toekomstig redeneren en welke wegwerpbaar zijn.
“Het schat niet alleen het belang; het leert een beleid dat expliciet de uiteindelijke outputverdeling van het model behoudt”, zei Nawrot.
Het proces transformeert een standaard, vooraf getrainde LLM zoals Llama 3 of Qwen 3 in een zelfcomprimerend model. Cruciaal is dat dit niet vereist dat het model helemaal opnieuw moet worden getraind, wat onbetaalbaar zou zijn. In plaats daarvan hergebruikt DMS bestaande neuronen binnen de aandachtslagen van het model om voor elk token een “bewaar”- of “uitzet”-signaal uit te voeren.
Voor teams die zich zorgen maakten over de complexiteit van het achteraf inbouwen, merkten de onderzoekers op dat het proces is ontworpen om licht van gewicht te zijn. “Om de efficiëntie van dit proces te verbeteren, kunnen de gewichten van het model worden bevroren, waardoor het proces vergelijkbaar is met Low-Rank Adaptation (LoRA)”, zei Nawrot. Dit betekent dat een standaard bedrijfsmodel zoals de Qwen3-8B “binnen enkele uren kan worden uitgerust met DMS op een enkele DGX H100.”
Een van de belangrijke onderdelen van DMS is een mechanisme dat ‘uitgestelde uitzetting’ wordt genoemd. Als een token bij standaard sparsificatie onbelangrijk wordt geacht, wordt het onmiddellijk verwijderd. Dit is riskant omdat het model mogelijk een fractie van een seconde nodig heeft om de context van dat token in zijn huidige staat te integreren.
DMS verhelpt dit door een token te markeren voor uitzetting, maar het gedurende een korte periode toegankelijk te houden (bijvoorbeeld een paar honderd stappen). Door deze vertraging kan het model alle resterende noodzakelijke informatie uit het token “extraheren” en deze samenvoegen met de huidige context voordat het token uit de KV-cache wordt gewist.
“Het ‘uitgestelde uitzettingsmechanisme’ is cruciaal omdat niet alle tokens eenvoudigweg ‘belangrijk’ (voor altijd bewaren) of ‘nutteloos’ (onmiddellijk verwijderen). Velen vallen er tussenin – ze bevatten wat informatie, maar niet genoeg om te rechtvaardigen dat ze een heel geheugenslot in beslag nemen, “zei Nawrot. “Dit is waar de redundantie ligt. Door deze tokens een korte tijd in een lokaal venster te bewaren voordat ze worden uitgezet, zorgen we ervoor dat het model er aandacht aan kan besteden en hun informatie opnieuw kan distribueren naar toekomstige tokens.”
De onderzoekers ontdekten dat dit retrofitproces zeer efficiënt is. Ze konden een vooraf getrainde LLM uitrusten met DMS in slechts 1.000 trainingsstappen, een klein deel van de rekenkracht die nodig was voor de oorspronkelijke training. De resulterende modellen maken gebruik van standaardkernels en kunnen rechtstreeks in bestaande krachtige inferentiestapels worden geplaatst zonder aangepaste hardware of complex herschrijven van software.
DMS in actie
Om de techniek te valideren, pasten de onderzoekers DMS toe op verschillende redeneermodellen, waaronder de Qwen-R1-serie (gedistilleerd uit DeepSeek R1) en Llama 3.2, en testten ze deze op moeilijke benchmarks zoals AIME 24 (wiskunde), GPQA Diamond (wetenschap) en LiveCodeBench (codering).
De resultaten laten zien dat DMS effectief de Pareto-grens verlegt, de optimale afweging tussen kosten en prestaties. Op de AIME 24 wiskundebenchmark behaalde een Qwen-R1 32B-model uitgerust met DMS een score die 12,0 punten hoger was dan een standaardmodel wanneer het werd beperkt tot hetzelfde geheugenbandbreedtebudget. Door de cache te comprimeren, kon het model het zich veroorloven om veel dieper en breder te “denken” dan het standaardmodel met hetzelfde geheugen en hetzelfde computerbudget.
Misschien wel het meest verrassend was dat DMS de algemene wijsheid tartte dat compressie het begrip van lange contexten schaadt. Bij ‘naald-in-een-hooiberg’-tests, waarbij het vermogen van een model wordt gemeten om een specifiek stukje informatie te vinden dat verborgen is in een groot document, presteerden DMS-varianten zelfs beter dan de standaardmodellen. Door het geheugen actief te beheren in plaats van passief ruis te verzamelen, behield het model een schonere, nuttiger context.
Voor bedrijfsinfrastructuur vertalen de efficiëntiewinsten zich rechtstreeks in doorvoer- en hardwarebesparingen. Omdat de geheugencache aanzienlijk kleiner is, besteedt de GPU minder tijd aan het ophalen van gegevens, waardoor de wachttijd voor gebruikers wordt verkort. In tests met het Qwen3-8B-model evenaarde DMS de nauwkeurigheid van het vanillemodel en leverde het een tot 5x hogere doorvoer. Dit betekent dat een enkele server vijf keer zoveel klantvragen per seconde kan verwerken zonder kwaliteitsverlies.
De toekomst van het geheugen
Nvidia heeft DMS uitgebracht als onderdeel van zijn KVPress-bibliotheek. Over hoe bedrijven aan de slag kunnen gaan met DMS benadrukt Nawrot dat de toetredingsdrempel laag is. “De ‘minimaal levensvatbare infrastructuur’ bestaat uit standaard Hugging Face-pijplijnen – er zijn geen aangepaste CUDA-kernels vereist”, zei Nawrot, erop wijzend dat de code volledig compatibel is met standaard FlashAttention.
Vooruitkijkend beschouwt het team DMS als onderdeel van een grotere verschuiving waarbij geheugenbeheer een aparte, intelligente laag van de AI-stack wordt. Nawrot bevestigde ook dat DMS “volledig compatibel” is met nieuwere architecturen zoals de Latente aandacht met meerdere hoofden (MLA) gebruikt in de modellen van DeepSeek, wat suggereert dat het combineren van deze benaderingen nog grotere efficiëntiewinsten zou kunnen opleveren.
Nu bedrijven overstappen van eenvoudige chatbots naar complexe agentische systemen die uitgebreide redeneringen vereisen, worden de kosten van gevolgtrekkingen een primaire zorg. Technieken als DMS bieden een manier om deze mogelijkheden duurzaam te schalen.
“We hebben nog maar nauwelijks de oppervlakte bereikt van wat mogelijk is”, zei Nawrot, “en we verwachten dat de schaalvergroting op het gebied van de inferentietijd verder zal evolueren.”


