Enterprise AI-applicaties die grote documenten of taken met een lange horizon verwerken, worden geconfronteerd met een ernstig geheugenknelpunt. Naarmate de context langer wordt, groeit ook de KV-cache, het gebied waar het werkgeheugen van het model wordt opgeslagen.
Een nieuwe techniek ontwikkeld door onderzoekers van MIT pakt deze uitdaging aan met een snelle compressiemethode voor de KV-cache. De techniek, genaamd Aandacht Matchingslaagt erin de context tot 50x te comprimeren met zeer weinig kwaliteitsverlies.
Hoewel het niet de enige techniek voor geheugencompressie is die beschikbaar is, valt Attention Matching op door zijn uitvoeringssnelheid en indrukwekkende mogelijkheden om informatie te bewaren.
Het geheugenknelpunt van de KV-cache
Grote taalmodellen genereren hun antwoorden opeenvolgend, één token tegelijk. Om te voorkomen dat de hele gespreksgeschiedenis voor elk voorspeld woord opnieuw moet worden berekend, slaat het model een wiskundige weergave op van elk eerder verwerkt token, ook wel de sleutel- en waardeparen genoemd. Dit kritische werkgeheugen staat bekend als de KV-cache.
De KV-cache schaalt met de gesprekslengte omdat het model gedwongen wordt deze sleutels en waarden te behouden voor alle voorgaande tokens in een bepaalde interactie. Dit kost dure hardwarebronnen. “In de praktijk is KV-cachegeheugen het grootste knelpunt bij het weergeven van modellen in een ultralange context”, vertelde Adam Zweiger, co-auteur van het artikel, aan VentureBeat. “Het beperkt de gelijktijdigheid, dwingt kleinere batches af en/of vereist een agressievere ontlading.”
In moderne zakelijke toepassingen, zoals het analyseren van enorme juridische contracten, het onderhouden van klantdialogen over meerdere sessies of het uitvoeren van autonome codeeragenten, kan de KV-cache oplopen tot vele gigabytes aan geheugen voor een enkel gebruikersverzoek.
Om dit enorme knelpunt op te lossen heeft de AI-industrie verschillende strategieën geprobeerd, maar deze methoden schieten tekort als ze worden ingezet in bedrijfsomgevingen waar extreme compressie noodzakelijk is. Een klasse technische oplossingen omvat het optimaliseren van de KV-cache door een van beide tokens verwijderen het model minder belangrijk acht of soortgelijke tokens samenvoegt tot één representatie. Deze technieken werken bij milde compressie, maar “degraderen snel bij hoge reductieverhoudingen”, aldus de auteurs.
Toepassingen in de echte wereld vertrouwen vaak op eenvoudigere technieken, waarbij de meest gebruikelijke aanpak is om simpelweg de oudere context te laten vallen zodra de geheugenlimiet is bereikt. Maar deze aanpak zorgt ervoor dat het model oudere informatie verliest naarmate de context langer wordt. Een ander alternatief is contextsamenvatting, waarbij het systeem pauzeert, een korte tekstsamenvatting van de oudere context schrijft en het oorspronkelijke geheugen door die samenvatting vervangt. Hoewel dit een industriestandaard is, gaat samenvatting gepaard met grote verliezen en schaadt het de downstream-prestaties aanzienlijk, omdat hierdoor relevante informatie uit de context kan worden verwijderd.
Recent onderzoek heeft uitgewezen dat het technisch mogelijk is om dit geheugen sterk te comprimeren met behulp van een methode genaamd Cartridges. Deze aanpak vereist echter het trainen van latente KV-cachemodellen via langzame, end-to-end wiskundige optimalisatie. Deze op gradiënten gebaseerde training kan op dure GPU’s enkele uren duren om slechts één enkele context te comprimeren, waardoor deze volledig onhaalbaar wordt voor realtime bedrijfstoepassingen.
Hoe aandachtsmatching wordt gecomprimeerd zonder de kosten
Attention Matching bereikt een hoog niveau van verdichtingsverhoudingen en -kwaliteit, terwijl het ordes van grootte sneller is dan op gradiënten gebaseerde optimalisatie. Het omzeilt het langzame trainingsproces door middel van slimme wiskundige trucs.
De onderzoekers realiseerden zich dat ze, om perfect na te bootsen hoe een AI met zijn geheugen interageert, twee wiskundige eigenschappen moeten behouden bij het comprimeren van de originele sleutel- en waardevectoren in een kleinere footprint. De eerste is de ‘aandachtsoutput’, de feitelijke informatie die de AI extraheert wanneer deze zijn geheugen bevraagt. De tweede is de ‘aandachtsmassa’, die fungeert als het wiskundige gewicht dat een token heeft ten opzichte van al het andere in het werkgeheugen van het model. Als het gecomprimeerde geheugen aan deze twee eigenschappen kan voldoen, zal het zich precies hetzelfde gedragen als het enorme, originele geheugen, zelfs als er later nieuwe, onvoorspelbare gebruikersprompts worden toegevoegd.
“Attention Matching is in sommige opzichten het ‘juiste’ doel voor latente contextverdichting, omdat het direct gericht is op het behouden van het gedrag van elke aandachtskop na verdichting,” zei Zweiger. Hoewel token-dropping en gerelateerde heuristieken kunnen werken, leidt het expliciet matchen van aandachtsgedrag eenvoudigweg tot betere resultaten.
Voordat het geheugen wordt gecomprimeerd, genereert het systeem een kleine set ‘referentiequery’s’ die fungeren als proxy voor de soorten interne zoekopdrachten die het model waarschijnlijk zal uitvoeren bij het redeneren over de specifieke context. Als het gecomprimeerde geheugen deze referentievragen nauwkeurig kan beantwoorden, zal het er later zeer waarschijnlijk in slagen de feitelijke vragen van de gebruiker te beantwoorden. De auteurs stellen verschillende methoden voor om deze referentiequery’s te genereren, waaronder het toevoegen van een verborgen prompt aan het document die het model vertelt de vorige context te herhalen, ook wel de ‘repeat-prefill’-techniek genoemd. Ze suggereren ook een ‘zelfstudie’-aanpak waarbij het model wordt gevraagd een paar snelle synthetische taken op het document uit te voeren, zoals het aggregeren van alle belangrijke feiten of het structureren van datums en cijfers in een JSON-formaat.
Met deze zoekopdrachten in de hand kiest het systeem een set sleutels om te bewaren in de gecomprimeerde KV-cache op basis van signalen zoals de hoogste attentiewaarde. Vervolgens worden de sleutels en referentiequery’s gebruikt om de overeenkomende waarden te berekenen, samen met een scalaire bias-term. Deze bias zorgt ervoor dat relevante informatie behouden blijft, waardoor elke bewaarde sleutel de massa van veel verwijderde sleutels kan vertegenwoordigen.
Deze formulering maakt het mogelijk om de waarden te fitten met eenvoudige algebraïsche technieken, zoals gewone kleinste kwadraten en niet-negatieve kleinste kwadraten, waardoor rekenintensieve, op gradiënten gebaseerde optimalisatie volledig wordt vermeden. Dit is wat Attention Matching supersnel maakt in vergelijking met optimalisatie-intensieve verdichtingsmethoden. De onderzoekers passen ook chunked compaction toe, waarbij aaneengesloten delen van de invoer onafhankelijk worden verwerkt en aaneengeschakeld, om de prestaties in lange contexten verder te verbeteren.
Aandachtsmatching in actie
Om te begrijpen hoe deze methode in de echte wereld presteert, hebben de onderzoekers een reeks stresstests uitgevoerd met behulp van populaire open-sourcemodellen zoals Llama 3.1 en Qwen-3 op twee verschillende soorten bedrijfsdatasets. De eerste was QuALITY, een standaardbenchmark voor begrijpend lezen waarbij gebruik wordt gemaakt van documenten van 5.000 tot 8.000 woorden. De tweede, die een echte uitdaging voor ondernemingen vormde, was LongHealth, een zeer compacte dataset van 60.000 tokens die de complexe medische dossiers van meerdere patiënten bevat.
De belangrijkste bevinding was het vermogen van Attention Matching om de KV-cache van het model met 50x te comprimeren zonder de nauwkeurigheid te verminderen, terwijl het slechts enkele seconden duurt om de documenten te verwerken. Om voorheen hetzelfde kwaliteitsniveau te bereiken, hadden Cartridges uren intensieve GPU-berekening per context nodig.
Bij het omgaan met de dichte medische dossiers stortten de standaard oplossingen in de industrie volledig in. De onderzoekers merkten op dat toen ze probeerden een standaardtekstsamenvatting van deze patiëntendossiers te gebruiken, de nauwkeurigheid van het model zo laag werd dat het overeenkwam met de basislijn zonder context, wat betekent dat de AI presteerde alsof hij het document helemaal niet had gelezen.
Attention Matching presteert aanzienlijk beter dan samenvattingen, maar ondernemingsarchitecten zullen de compressieverhouding voor compacte taken moeten verlagen in vergelijking met eenvoudigere tests voor begrijpend lezen. Zoals Zweiger uitlegt: “De belangrijkste praktische afweging is dat als je bijna alles in de context probeert te bewaren bij taken met een hoge informatiedichtheid, je over het algemeen een mildere verdichtingsverhouding nodig hebt om een sterke nauwkeurigheid te behouden.”
De onderzoekers onderzochten ook wat er gebeurt in gevallen waarin absolute precisie niet nodig is, maar extreme geheugenbesparingen wel. Ze voerden Attention Matching uit bovenop een standaardtekstsamenvatting. Deze gecombineerde aanpak bereikte een compressie van 200x. Het evenaarde met succes de nauwkeurigheid van alleen standaardsamenvatting, maar met een zeer kleine geheugenvoetafdruk.
Een van de interessante experimenten voor bedrijfsworkflows was het testen van online compactie, hoewel ze opmerken dat dit een proof of concept is en niet rigoureus is getest in productieomgevingen. De onderzoekers testten het model op de geavanceerde AIME-test voor wiskundig redeneren. Ze dwongen de AI een probleem op te lossen met een strikt beperkte fysieke geheugenlimiet. Elke keer dat het geheugen van het model vol raakte, pauzeerde het systeem, comprimeerde het werkgeheugen onmiddellijk met 50 procent met behulp van Attention Matching en liet het verder nadenken. Zelfs nadat het model de geheugenmuur had geraakt en de KV-cache tijdens het nadenken tot zes keer achter elkaar was gekrompen, loste het model de wiskundige problemen met succes op. De prestaties kwamen overeen met een model dat een enorm, onbeperkt geheugen had gekregen.
Er zijn kanttekeningen waarmee rekening moet worden gehouden. Met een compressieverhouding van 50x is Attention Matching de duidelijke winnaar in het balanceren van snelheid en kwaliteit. Als een onderneming echter probeert de compressie tot extreme limieten van 100x op zeer complexe gegevens te brengen, presteert de langzamere, op gradiënten gebaseerde Cartridges-methode feitelijk beter.
De onderzoekers hebben vrijgegeven de code voor Attention Matching. Ze merken echter op dat dit momenteel geen eenvoudige plug-and-play software-update is. “Ik denk dat latente verdichting het beste kan worden beschouwd als een modellaagtechniek”, merkt Zweiger op. “Hoewel het bovenop elk bestaand model kan worden toegepast, vereist het toegang tot modelgewichten.” Dit betekent dat bedrijven die volledig afhankelijk zijn van gesloten API’s dit niet zelf kunnen implementeren; ze hebben modellen met open gewicht nodig.
De auteurs merken op dat het integreren van deze KV-verdichting in de latente ruimte in bestaande, sterk geoptimaliseerde commerciële inferentiemotoren nog steeds aanzienlijke inspanningen vergt. De moderne AI-infrastructuur maakt gebruik van complexe trucs zoals prefix-caching en geheugenverpakking met variabele lengte om servers efficiënt te laten werken. Het naadloos inpassen van deze nieuwe compactietechniek in bestaande systemen zal speciaal technisch werk vergen. Er zijn echter directe bedrijfstoepassingen. “Wij geloven dat verdichting na opname een veelbelovend gebruiksscenario is, waarbij grote uitvoer van tooloproepen of lange documenten direct na verwerking worden gecomprimeerd”, aldus Zweiger.
Uiteindelijk komt de verschuiving naar mechanische, latente ruimteverdichting overeen met de toekomstige productroutekaarten van grote AI-spelers, betoogt Zweiger. “We zien dat de verdichting verschuift van iets dat bedrijven zelf implementeren naar iets dat aanbieders leveren”, aldus Zweiger. “Dit geldt des te meer voor latente compactie, waarbij toegang tot modelgewichten nodig is. OpenAI stelt nu bijvoorbeeld een black-box-compactie-eindpunt bloot dat een ondoorzichtig object retourneert in plaats van een samenvatting in platte tekst.”



