Home Nieuws Met het nieuwe ‘recursieve’ raamwerk van MIT kunnen LLM’s 10 miljoen tokens...

Met het nieuwe ‘recursieve’ raamwerk van MIT kunnen LLM’s 10 miljoen tokens verwerken zonder contextrot

Door

20 januari 2026

Recursieve taalmodellen (RLM’s) zijn een inferentietechniek ontwikkeld door onderzoekers van MIT CSAIL die lange prompts behandelen als een externe omgeving voor het model. In plaats van de hele prompt in het contextvenster van het model te forceren, stelt het raamwerk de LLM in staat programmatisch te onderzoeken, te ontleden en zichzelf recursief aan te roepen over fragmenten van de tekst.

In plaats van contextvensters uit te breiden of oude informatie samen te vatten, herformuleert het MIT-team het redeneren in de lange context als een systeemprobleem. Door modellen prompts te laten behandelen als iets dat ze met code kunnen inspecteren, zorgen recursieve taalmodellen ervoor dat LLM’s over miljoenen tokens kunnen redeneren zonder ze opnieuw te hoeven trainen. Dit biedt bedrijven een praktisch pad naar taken met een lange horizon, zoals codebase-analyse, juridische beoordeling en redeneren in meerdere stappen, waardoor de huidige modellen routinematig worden doorbroken.

Omdat het raamwerk is ontworpen als een omhulsel rond bestaande modellen, kan het dienen als een drop-in vervanging voor applicaties die rechtstreekse oproepen doen naar LLM’s.

Het LLM-contextprobleem

Hoewel grensmodellen steeds geavanceerder worden in hun redenering, groeit hun vermogen om enorme hoeveelheden informatie te verwerken niet in hetzelfde tempo. Dit knelpunt wordt veroorzaakt door twee duidelijke beperkingen: de harde fysieke beperking van hoeveel tekst een model tegelijk kan verwerken (contextlengte) en ‘contextrot’.

De uitdaging, zo stellen de onderzoekers, is of het mogelijk is om de effectieve contextomvang van LLM’s voor algemene doeleinden met ordes van grootte te schalen zonder ze opnieuw te trainen. Deze mogelijkheid wordt steeds belangrijker voor bedrijfsapplicaties, waar LLM’s worden gebruikt voor taken met een lange horizon die de verwerking van miljoenen tokens vereisen – een uitdaging die volgens Zhang niet kan worden opgelost door simpelweg contextvensters uit te breiden.

“Er is een entropie-argument dat impliceert dat je exponentieel meer datamonsters nodig hebt naarmate je de effectieve contextvenstergrootte vergroot”, vertelde Alex Zhang, een co-auteur van het artikel, aan VentureBeat.

De huidige benaderingen om de context uit te breiden, zijn vaak gebaseerd op compactie, waarbij het model oudere delen van het gesprek samenvat om ruimte vrij te maken. Deze methode mislukt echter voor taken die willekeurige toegang vereisen tot specifieke details in eerdere delen van de prompt.

Hoe RLM’s werken

Het concept achter RLM’s is ontleend aan “out-of-core” algoritmen die worden gebruikt in klassiek computergebruik. Deze algoritmen zijn ontworpen om datasets te verwerken die te groot zijn om in het hoofdgeheugen van een computer te passen, door de gegevens op een harde schijf te bewaren en alleen de noodzakelijke delen op te halen als dat nodig is.

RLM’s passen deze logica toe op generatieve AI. In plaats van een lange prompt rechtstreeks in het neurale netwerk te sturen, laadt het raamwerk de tekst als een stringvariabele in een Python-coderingsomgeving. De LLM krijgt algemene context over de gegevens (zoals het totale aantal tekens), maar ‘ziet’ de tekst aanvankelijk niet.

Zodra de prompt als variabele is opgeslagen, fungeert de LLM als programmeur. Het schrijft Python-code voor interactie met de externe variabele, waarbij standaardopdrachten worden gebruikt om in de gegevens te kijken. Het model kan bijvoorbeeld reguliere expressies gebruiken om te zoeken naar specifieke trefwoorden zoals ‘Hoofdstuk 1’ of ‘financiële resultaten’.

Wanneer de code-uitvoering een relevant fragment vindt, haalt de RLM alleen dat specifieke fragment naar het actieve contextvenster voor analyse.

Als de prompt bijvoorbeeld een enorm boek is, kan de LLM een lus schrijven die de hoofdstukgrenzen identificeert en vervolgens een suboproep activeert om elk hoofdstuk afzonderlijk samen te vatten.

RLM-architectuur (bron: arXiv)

Bij de architectuur zijn doorgaans twee agenten betrokken. Een ‘roottaalmodel’, vaak een model met veel mogelijkheden, zoals GPT-5, fungeert als orkestrator. Het plant de aanpak, schrijft de code en beheert de datastroom binnen de REPL-omgeving. Een ‘recursief taalmodel’, vaak een sneller en goedkoper model, fungeert als werker. De root-LM roept deze werker aan om de specifieke tekstfragmenten te verwerken die door de code worden geïsoleerd.

Omdat de prompt zich in het omgevingsgeheugen bevindt en niet in het contextvenster van het model, kan het systeem invoer verwerken die veel groter is dan de trainingslimiet van het model. Belangrijk is dat de RLM zich voor de eindgebruiker precies hetzelfde gedraagt als een standaardmodel: hij accepteert een tekenreeks en retourneert een antwoord. Hierdoor kunnen bedrijfsteams standaard API-aanroepen omruilen voor RLM’s.

Voor ontwikkelaars die willen experimenteren is de RLM-code momenteel beschikbaar op GitHub.

“Een belangrijk argument voor RLM’s is dat de meeste complexe taken kunnen worden opgesplitst in kleinere, ‘lokale’ subtaken,” zei Zhang. “Het is echter niet triviaal hoe deze context-/probleemdecompositie moet worden uitgevoerd, en het model moet daartoe in staat zijn.”

RLM’s in actie

Om het raamwerk te valideren, testten de onderzoekers RLM’s met basismodellen en andere agentische benaderingen zoals CodeAct en samenvattende agenten voor een verscheidenheid aan taken met een lange context, waaronder het ophalen en beantwoorden van vragen met meerdere sprongen.

De resultaten lieten sterke prestatieverbeteringen zien op de schaal van meer dan 10 miljoen tokens. Op Blader door Comp-Pluseen benchmark met inputs van 6 tot 11 miljoen tokens, faalden de standaardbasismodellen volledig en scoorden 0%. Daarentegen wordt de RLM aangedreven door GPT-5 behaalde een score van 91,33%, waarmee hij aanzienlijk beter presteerde dan de Summary Agent (70,47%) en CodeAct (51%).

Het raamwerk blonk ook uit in taken met een hoge rekencomplexiteit. Op OOLONG-Pairs, een informatierijke redeneringsbenchmark waarbij de moeilijkheidsgraad kwadratisch schaalt met de invoerlengte, faalden basis GPT-5-modellen catastrofaal met een score van slechts 0,04%. De RLM behaalde een F1-score (een evenwichtige maatstaf voor precisie en herinnering) van 58%, wat blijk geeft van opkomende capaciteiten om compacte taken uit te voeren die standaardmodellen verlammen. Op dezelfde manier heeft de RLM bij het begrijpen van codetaken (CodeQA-benchmark) de prestaties van het GPT-5-basismodel meer dan verdubbeld, van 24% naar 62%.

RLM-prestaties — RLM behoudt zijn prestaties, zelfs nadat het de contextvensterlimiet van het onderliggende model bereikt (bron: arXiv)

Met betrekking tot het contextrotprobleem toonden de gegevens aan dat, hoewel de prestaties van de basis-GPT-5 snel afnemen naarmate de taakcomplexiteit toeneemt, de RLM-prestaties stabiel blijven en consequent beter presteren dan het basismodel op contexten langer dan 16.000 tokens.

Ondanks de toegenomen complexiteit van de workflow handhaafden RLM’s vaak vergelijkbare of lagere gemiddelde kosten dan de uitgangswaarden. Op de BrowseComp-Plus-benchmark was de RLM tot drie keer goedkoper dan de samenvattende basislijn.

De onderzoekers merkten echter op dat, hoewel de mediane kosten laag zijn, de RLM-trajecten ‘langdurig’ zijn. Uitschieters kunnen kostbaar worden als het model vastloopt in lussen of redundante verificaties uitvoert. Terwijl GPT-5 conservatief was in zijn sub-oproepen, is de open source Qwen3-coder model probeerde soms duizenden suboproepen uit voor eenvoudige taken.

“Vandaag zul je waarschijnlijk je eigen vangrails en logica moeten implementeren om RLM-gedrag te controleren,” zei Zhang. Hij veronderstelt echter dat toekomstige modellen kunnen worden getraind om hun eigen computerbudgetten effectiever te beheren. Bedrijven als Prime Intellect zijn dat van plan RLM integreren in het trainingsproces van modellen, waarbij mogelijk de randgevallen worden aangepakt waarin het inferentiebudget van het model piekt.

Voor ondernemingsarchitecten die beslissen waar ze op willen inzetten, biedt het RLM-framework een nieuw hulpmiddel voor het omgaan met informatierijke problemen.

“Ik denk dat RLM’s nog steeds buitengewoon nuttig zijn voor chatbots (denk aan een lange chatgeschiedenis), maar uiteindelijk pleiten ze voor een alternatieve manier om LM’s te gebruiken,” zei Zhang. “Ik denk dat RLM’s samenwerken met standaard ophaalmethoden zoals RAG; ze dienen niet als vervanging en kunnen in verschillende omgevingen of samen worden gebruikt.”

Nieuwsbron

Met het nieuwe ‘recursieve’ raamwerk van MIT kunnen LLM’s 10 miljoen tokens verwerken zonder contextrot

Het LLM-contextprobleem

Hoe RLM’s werken

RLM’s in actie

LAAT EEN REACTIE ACHTER Annuleer reactie

EDITOR PICKS

Verontwaardiging over de casting van Helena van Troje in de Odyssee, beschuldigingen van schermwassen

Hoe de meest gehate sciencefiction van Netflix per ongeluk de beste franchise uit de...

Hoe het ei van een ridder van de zeven koninkrijken verband houdt met Game...

Dhurandhar 2 EXCLUSIEF: Trailer verschijnt waarschijnlijk op 3 maart, Ranveer Singh wordt groter en...