Het verwerken van 200.000 tokens via een groot taalmodel is duur en traag: hoe langer de context, hoe sneller de kosten omhoog gaan. Onderzoekers van de Tsinghua Universiteit en Z.ai hebben dat gedaan built a technique called IndexCache Dat vermindert tot 75% van de redundante berekeningen in spaarzame aandachtsmodellen, wat tot 1,82x snellere time-to-first-token en 1,48x snellere generatiedoorvoer oplevert bij die contextlengte.
De techniek is van toepassing op modellen die de DeepSeek Sparse Attention-architectuur gebruiken, inclusief de nieuwste DeepSeek- en GLM-families. Het kan bedrijven helpen snellere gebruikerservaringen te bieden voor lange-contextmodellen op productieschaal, een mogelijkheid die al is bewezen in voorlopige tests met het GLM-5-model met 744 miljard parameters.
Het DSA-knelpunt
Grote taalmodellen vertrouwen op het zelfaandachtsmechanisme, een proces waarbij het model de relatie berekent tussen elk token in zijn context en alle voorgaande om het volgende token te voorspellen.
Zelfaandacht heeft echter een ernstige beperking. De computationele complexiteit schaalt kwadratisch met de reekslengte. Voor toepassingen die uitgebreide contextvensters vereisen (bijvoorbeeld de verwerking van grote documenten, meerstaps agentische workflows of een lange gedachtegang), leidt deze kwadratische schaalvergroting tot trage gevolgtrekkingssnelheden en aanzienlijke computer- en geheugenkosten.
Schaarse aandacht biedt een principiële oplossing voor dit schaalprobleem. In plaats van de relatie tussen elk token en alle voorgaande te berekenen, optimaliseert spaarzame aandacht het proces door elke query alleen de meest relevante subset van tokens te laten selecteren en behandelen.
Diep Zoek schaarse aandacht (DSA) is een zeer efficiënte implementatie van dit concept, voor het eerst geïntroduceerd in DeepSeek-V3.2. Om te bepalen welke tokens er het meest toe doen, introduceert DSA een lichtgewicht ‘lightning indexer module’ op elke laag van het model. Deze indexer scoort alle voorgaande tokens en selecteert een kleine batch die het belangrijkste aandachtsmechanisme moet verwerken. Door dit te doen, verlaagt DSA de zware kernaandachtsberekening van kwadratisch naar lineair, waardoor het model dramatisch wordt versneld terwijl de uitvoerkwaliteit behouden blijft.
Maar de onderzoekers ontdekten een slepende fout: de DSA-indexer zelf werkt nog steeds met een kwadratische complexiteit op elke afzonderlijke laag. Ook al is de indexeerder computationeel goedkoper dan het hoofdaandachtsproces, naarmate de context langer wordt, schiet de tijd die het model besteedt aan het runnen van deze indexeerders omhoog. Dit vertraagt het model ernstig, vooral tijdens de initiële “prefill”-fase waarin de prompt voor het eerst wordt verwerkt.
Aandacht cachen met IndexCache
Om het knelpunt van de indexer op te lossen, ontdekte het onderzoeksteam een cruciaal kenmerk van de manier waarop DSA-modellen gegevens verwerken. De subset van belangrijke tokens die een indexeerder selecteert, blijft opmerkelijk stabiel terwijl gegevens door opeenvolgende transformatorlagen bewegen. Empirische tests op DSA-modellen hebben aangetoond dat aangrenzende lagen tussen 70% en 100% van hun geselecteerde tokens delen.
Om te profiteren van deze redundantie over meerdere lagen heen, ontwikkelden de onderzoekers IndexCache. De techniek verdeelt de lagen van het model in twee categorieën. Een klein aantal volledige (F)-lagen behouden hun indexeerders, scoren actief de tokens en kiezen de belangrijkste om in de cache te plaatsen. De overige lagen worden gedeeld (S), waarbij geen indexering wordt uitgevoerd en de in de cache opgeslagen indices van de dichtstbijzijnde voorafgaande F-laag worden hergebruikt.
Tijdens de inferentie controleert het model eenvoudigweg het laagtype. Als het een F-laag bereikt, berekent het nieuwe indices en slaat deze op in de cache. Als het een S-laag is, slaat deze de wiskunde over en kopieert de gegevens in de cache.
Er bestaat een breed scala aan optimalisatietechnieken die het aandachtsknelpunt proberen aan te pakken het comprimeren van de KV-cachewaar de berekende aandachtswaarden worden opgeslagen. In plaats van de geheugenvoetafdruk te verkleinen, zoals bij standaard KV-cachecompressie, valt IndexCache het computerknelpunt aan.
“IndexCache is geen traditionele techniek voor het comprimeren of delen van KV-cache”, vertelde Yushi Bai, co-auteur van het artikel, aan VentureBeat. “Het elimineert deze redundantie door indices over verschillende lagen heen te hergebruiken, waardoor de rekenkracht wordt verminderd in plaats van alleen de geheugenvoetafdruk. Het is een aanvulling op bestaande benaderingen en kan ermee worden gecombineerd.”
De onderzoekers ontwikkelden twee implementatiebenaderingen voor IndexCache. (Het is vermeldenswaard dat IndexCache alleen van toepassing is op modellen die de DSA-architectuur gebruiken, zoals de nieuwste DeepSeek-modellen en de nieuwste familie van GLM-modellen.)
Voor ontwikkelaars die werken met kant-en-klare DSA-modellen waarbij herscholing onhaalbaar of te duur is, hebben ze een trainingsvrije methode ontwikkeld die vertrouwt op een algoritme voor ‘hebzuchtige laagselectie’. Door een kleine kalibratiedataset door het model te laten lopen, bepaalt dit algoritme automatisch de optimale plaatsing van F- en S-lagen zonder enige gewichtsupdates. Empirisch bewijs toont aan dat het hebzuchtige algoritme 75% van de indexeerders veilig kan verwijderen en tegelijkertijd de downstream-prestaties van het oorspronkelijke model kan evenaren.
Voor teams die hun eigen basismodellen vooraf trainen of sterk verfijnen, stellen de onderzoekers een trainingsbewuste versie voor die de netwerkparameters optimaliseert om het delen tussen lagen te ondersteunen. Deze aanpak introduceert een “meerlaags destillatieverlies” tijdens de training. Het dwingt elke behouden indexeerder om te leren hoe hij een consensus-subset van tokens moet selecteren die zeer relevant zal zijn voor alle volgende lagen die hij bedient.
Real-world versnellingen op productiemodellen
Om de impact van IndexCache te testen, pasten de onderzoekers het toe op de parameter 30 miljard GLM-4.7 flitser model en vergeleek het met de standaardbasislijn.
Bij een contextlengte van 200K verminderde het verwijderen van 75% van de indexers de prefill-latentie van 19,5 seconden naar slechts 10,7 seconden, wat een snelheidswinst van 1,82x opleverde. De onderzoekers merken op dat deze versnellingen naar verwachting zelfs nog groter zullen zijn in langere contexten.
Tijdens de decoderingsfase, waarin het model zijn antwoord genereert, verhoogde IndexCache de doorvoer per verzoek van 58 tokens per seconde naar 86 tokens per seconde bij de contextmarkering van 200K, wat een versnelling van 1,48x opleverde. Wanneer het geheugen van de server volledig verzadigd is met verzoeken, steeg de totale decoderingsdoorvoer met maar liefst 51%.
Voor ondernemingsteams vertalen deze efficiëntiewinsten zich rechtstreeks in kostenbesparingen. “In termen van ROI biedt IndexCache consistente voordelen in alle scenario’s, maar de winst is het meest merkbaar bij werklasten met een lange context, zoals RAG, documentanalyse en agentische pipelines”, aldus Bai. “In deze gevallen zien we een reductie van minstens 20% in de implementatiekosten en vergelijkbare verbeteringen in de door de gebruiker waargenomen latentie.” Hij voegde eraan toe dat voor taken met een zeer korte context de voordelen rond de 5% schommelen.
Opmerkelijk is dat deze efficiëntiewinsten het redeneervermogen niet in gevaar brachten. Door gebruik te maken van de trainingsvrije aanpak om 75% van de indexeerders te elimineren, kwam het 30B-model overeen met de gemiddelde score van de oorspronkelijke basislijn op lange-contextbenchmarks, met een score van 49,9 tegen de oorspronkelijke 50,2. Op de zeer complexe AIME 2025-benchmark voor wiskundig redeneren presteerde het geoptimaliseerde model zelfs beter dan de oorspronkelijke basislijn, met een score van 92,6 vergeleken met 91,0.
Het team voerde ook voorbereidende experimenten uit met het GLM-5-model op productieschaal met 744 miljard parameters. Ze ontdekten dat het elimineren van 75% van de indexers met de trainingsvrije methode een versnelling van minstens 1,3x opleverde voor contexten van meer dan 100.000 tokens. Tegelijkertijd handhaafde het model een vrijwel identiek kwaliteitsgemiddelde voor taken met een lange context.
IndexCache in productie brengen
Voor ontwikkelingsteams die vandaag de dag de trainingsvrije aanpak willen implementeren, is het proces eenvoudig, maar vereist het een zorgvuldige opzet. Terwijl het hebzuchtige zoekalgoritme automatisch de optimale laagconfiguratie vindt, hangt de kwaliteit van die configuratie af van de gegevens die het verwerkt.
“We raden aan domeinspecifieke gegevens te gebruiken als kalibratieset, zodat het ontdekte patroon voor het delen van lagen aansluit bij de echte werklast”, aldus Bai.
Eenmaal gekalibreerd is de optimalisatie zeer toegankelijk voor productieomgevingen. Er zijn al open source-patches beschikbaar op GitHub voor grote dienstmotoren. “Integratie is relatief eenvoudig: ontwikkelaars kunnen de patch toepassen op bestaande inferentiestapels, zoals vLLM of SGLang, en IndexCache inschakelen met minimale configuratiewijzigingen”, aldus Bai.
Hoewel IndexCache een onmiddellijke oplossing biedt voor de huidige computerknelpunten, wijst de onderliggende filosofie op een bredere verschuiving in de manier waarop de AI-industrie modelontwerp zal benaderen.
“Toekomstige funderingsmodellen zullen waarschijnlijk vanaf het begin worden ontworpen met downstream-inferentiebeperkingen in gedachten”, concludeerde Bai. “Dit betekent ontwerpen die niet alleen schaalbaar zijn in termen van modelgrootte, maar ook geoptimaliseerd zijn voor real-world doorvoer en latentie, in plaats van deze als post-hoc-problemen te behandelen.”


