Home Nieuws Hoe de ‘interne RL’ van Google AI-agenten met een lange horizon zou...

Hoe de ‘interne RL’ van Google AI-agenten met een lange horizon zou kunnen ontsluiten

Door

16 januari 2026

Onderzoekers bij Google hebben een techniek ontwikkeld die het voor AI-modellen gemakkelijker maakt om complexe redeneertaken te leren die er meestal voor zorgen dat LLM’s hallucineren of uit elkaar vallen. In plaats van LLM’s te trainen door middel van next-token-voorspelling, werd hun techniek genoemd leren van interne versterking (interne RL), stuurt de interne activeringen van het model naar de ontwikkeling van een stapsgewijze oplossing op hoog niveau voor het invoerprobleem.

Uiteindelijk zou dit een schaalbaar pad kunnen bieden voor het creëren van autonome agenten die complexe redeneringen en real-world robotica aankunnen zonder constante, handmatige begeleiding.

De grenzen van de voorspelling van het volgende token

Versterkend leren speelt een sleutelrol bij LLM’s na de training, vooral voor complexe redeneertaken waarvoor planning over de lange horizon vereist is. Het probleem ligt echter in de architectuur van deze modellen. LLM’s zijn autoregressief, wat betekent dat ze reeksen per token genereren. Wanneer deze modellen tijdens de training nieuwe strategieën verkennen, doen ze dit door kleine, willekeurige wijzigingen aan te brengen in het volgende token of de volgende actie. Dit legt een diepere beperking bloot: next-token-voorspelling dwingt modellen om naar oplossingen op het verkeerde abstractieniveau te zoeken, waardoor redeneren over de lange horizon inefficiënt wordt, zelfs als het model ‘weet’ wat het moet doen.

Deze token-voor-token-aanpak werkt goed voor basistaalmodellering, maar mislukt bij taken met een lange horizon waarbij beloningen schaars zijn. Als het model uitsluitend gebaseerd is op willekeurige steekproeven op tokenniveau, is de kans dat je de juiste meerstapsoplossing tegenkomt oneindig klein, “in de orde van één op een miljoen”, aldus de onderzoekers.

Het probleem is niet alleen dat de modellen in de war raken; het is dat ze op het verkeerde niveau in de war raken. In commentaar aan VentureBeat merkt Yanick Schimpf, een co-auteur van het artikel, op dat een agent bij een taak van twintig stappen kan verdwalen in de kleinste details van een enkele stap, of dat hij het algemene doel uit het oog kan verliezen.

“Wij beweren dat wanneer je geconfronteerd wordt met een probleem met een abstracte structuur… (doelgerichte verkenning) is wat je wilt”, zei Schimpf. Door het probleem eerst op abstract niveau op te lossen, legt de agent zich vast aan een pad, zodat hij niet “verdwaalt in een van de redeneerstappen” en er niet in slaagt de bredere workflow te voltooien.

Afbeelding tegoed: VentureBeat met NotebookLM

Om dit aan te pakken, heeft het veld lang gekeken naar hiërarchisch versterkend leren. HRL probeert complexe problemen op te lossen door ze op te splitsen in een hiërarchie van tijdelijk abstracte acties (subroutines op hoog niveau die verschillende stadia van de oplossing vertegenwoordigen) in plaats van een taak te beheren als een reeks tokens.

Het ontdekken van deze geschikte subroutines blijft echter een al lang bestaande uitdaging. De huidige HRL-methoden slagen er vaak niet in om het juiste beleid te ontdekken, en ‘convergeren vaak tot gedegenereerde opties’ die geen zinvol gedrag vertegenwoordigen. Zelfs geavanceerde moderne methoden zoals GRPO (een populair RL-algoritme dat wordt gebruikt voor taken met weinig beloning) falen in complexe omgevingen omdat ze de kloof tussen uitvoering op laag niveau en planning op hoog niveau niet effectief kunnen overbruggen.

Het sturen van de interne gedachten van de LLM

Om deze beperkingen te overwinnen, heeft het Google-team interne RL voorgesteld. Geavanceerde autoregressieve modellen ‘weten’ intern al hoe ze complexe, uit meerdere stappen bestaande taken moeten uitvoeren, zelfs als ze daar niet expliciet voor zijn opgeleid.

Omdat dit complexe gedrag verborgen is in de reststroom van het model (dwz de numerieke waarden die informatie door de lagen van het netwerk transporteren), introduceerden de onderzoekers een ‘interne neurale netwerkcontroller’ of metacontroller. In plaats van het uitvoertoken te monitoren en te wijzigen, bestuurt de metacontroller het gedrag van het model door wijzigingen toe te passen op de interne activeringen van het model in de middelste lagen.

Deze duwtje in de rug stuurt het model in een specifieke bruikbare staat. Het basismodel genereert vervolgens automatisch de reeks individuele stappen die nodig zijn om dat doel te bereiken, omdat het deze patronen al heeft gezien tijdens de initiële voortraining.

De metacontroller werkt via leren zonder toezicht en vereist geen door mensen gelabelde trainingsvoorbeelden. In plaats daarvan gebruiken de onderzoekers een zelfgecontroleerd raamwerk waarin het model een volledige reeks gedragingen analyseert en achteruit werkt om de verborgen intentie op hoog niveau af te leiden die de acties het beste verklaart.

Tijdens de interne RL-fase worden de updates toegepast op de metacontroller, waardoor de training verschuift van next-token-voorspelling naar het leren van acties op hoog niveau die tot de oplossing kunnen leiden.

Om de praktische waarde hiervan te begrijpen, kunt u een bedrijfsagent overwegen die belast is met het genereren van code. Tegenwoordig is er een moeilijke afweging: je hebt ‘lage temperatuur’ (voorspelbaarheid) nodig om de syntaxis goed te krijgen, maar ‘hoge temperatuur’ (creativiteit) om de logische puzzel op te lossen.

“Interne RL zou dit kunnen vergemakkelijken door het model de ruimte van abstracte acties te laten verkennen, dat wil zeggen het structureren van logica en methodeaanroepen, terwijl de realisatie van die acties op tokenniveau wordt gedelegeerd aan de robuuste, lagere temperatuurverdeling van het basismodel, ” zei Schimpf. De agent onderzoekt de oplossing zonder de syntaxis te verbreken.

De onderzoekers onderzochten twee methoden om deze controller toe te passen. In het eerste geval wordt het autoregressieve basismodel vooraf getraind op een gedragsdataset en vervolgens bevroren, terwijl de metacontroller wordt getraind om de reststroom van het bevroren model te sturen. In het tweede geval worden de metacontroller en het basismodel gezamenlijk geoptimaliseerd, waarbij de parameters van beide netwerken gelijktijdig worden bijgewerkt.

Interne RL in actie

Om de effectiviteit van interne RL te evalueren, voerden de onderzoekers experimenten uit in hiërarchische omgevingen die waren ontworpen om traditionele leerlingen te overrompelen. Deze omvatten een discrete rasterwereld en een continue controletaak waarbij een viervoetige “mier” -robot gezamenlijke bewegingen moet coördineren. Beide omgevingen gebruikten schaarse beloningen met zeer lange actiescènes.

Terwijl basislijnen zoals GRPO en CompILE er niet in slaagden de taken binnen een miljoen afleveringen te leren vanwege de moeilijkheid om kredieten over een lange horizon toe te wijzen, behaalde interne RL hoge succespercentages met een klein aantal trainingsepisodes. Door doelen op hoog niveau te kiezen in plaats van kleine stappen, verkleinde de metacontroller de zoekruimte drastisch. Hierdoor kon het model identificeren welke beslissingen op hoog niveau tot succes leidden, waardoor de krediettoewijzing efficiënt genoeg werd om het schaarse beloningsprobleem op te lossen.

Interne RL-prestaties — Modellen die zijn getraind met interne RL zien snelle verbetering bij redeneertaken met een lange horizon, terwijl andere basislijnen niets leren (bron: arXiv)

De onderzoekers ontdekten met name dat de ‘bevroren’ aanpak superieur was. Toen het basismodel en de metacontroller vanaf het begin gezamenlijk werden getraind, slaagde het systeem er niet in betekenisvolle abstracties te ontwikkelen. Toegepast op een bevroren model ontdekte de metacontroller echter met succes belangrijke controlepunten zonder menselijke labels, waardoor het interne schakelmechanisme perfect werd afgestemd op de grondwaarheidsmomenten waarop een agent het ene subdoel afrondde en aan het volgende begon.

Terwijl de industrie zich momenteel fixeert op redeneermodellen die uitgebreide ‘gedachteketens’ produceren om problemen op te lossen, wijst het onderzoek van Google in de richting van een andere, misschien efficiëntere toekomst.

“Onze studie sluit aan bij een groeiend oeuvre dat suggereert dat ‘intern redeneren’ niet alleen haalbaar is, maar mogelijk ook efficiënter dan op tokens gebaseerde benaderingen”, aldus Schimpf. “Bovendien kunnen deze stille ‘gedachten’ worden losgekoppeld van specifieke invoermodaliteiten – een eigenschap die bijzonder relevant zou kunnen zijn voor de toekomst van multimodale AI.”

Als intern redeneren kan worden geleid zonder te worden geëxternaliseerd, zal de toekomst van AI-agenten minder afhangen van het aansporen van strategieën en meer van hoe goed we toegang kunnen krijgen tot en kunnen sturen naar wat modellen intern al vertegenwoordigen. Voor bedrijven die vertrouwen op autonome systemen die over een lange horizon moeten plannen, zich moeten aanpassen en handelen, zou die verschuiving belangrijker kunnen zijn dan welke nieuwe redeneringsbenchmark dan ook.

Nieuwsbron

Hoe de ‘interne RL’ van Google AI-agenten met een lange horizon zou kunnen ontsluiten

De grenzen van de voorspelling van het volgende token

Het sturen van de interne gedachten van de LLM

Interne RL in actie

LAAT EEN REACTIE ACHTER Annuleer reactie

EDITOR PICKS

Dramatisch moment waarop gevangenisbewakers het lichaam van Epstein ontdekken, wordt voor het eerst onthuld...

Scott Galloway dringt er bij een grote tech-boycot op aan om het ICE-beleid van...

Ontwikkelaars behalen grote snelheids- en kostenbesparingen met de nieuwe GPT-5.1-update

Pentagon onderzoekt senator die leger opriep ‘illegale bevelen’ te negeren