Het trainen van AI-redeneermodellen vereist middelen waarover de meeste bedrijfsteams niet beschikken. Technische teams worden vaak gedwongen te kiezen tussen het destilleren van kennis uit grote, dure modellen of het vertrouwen op versterkende leertechnieken die schaarse feedback opleveren.
Onderzoekers van JD.com en verschillende academische instellingen hebben onlangs een nieuw trainingsparadigma geïntroduceerd dat dit dilemma omzeilt. De techniek, genaamd Versterkend leren met verifieerbare beloningen met zelfdistillatie (RLSD), combineert het betrouwbare prestatie-tracking van versterkend leren met de gedetailleerde feedback van zelfdistillatie.
Experimenten geven aan dat modellen die zijn getraind met RLSD beter presteren dan modellen die zijn gebouwd op klassieke destillatie- en versterkingsleeralgoritmen. Voor bedrijfsteams verlaagt deze aanpak de technische en financiële barrières voor het bouwen van aangepaste redeneermodellen die zijn toegesneden op specifieke bedrijfslogica.
Het probleem met het trainen van redeneermodellen
De standaardmethode voor het trainen van redeneermodellen is Versterkend leren met verifieerbare beloningen (RLVR). In dit paradigma leert het model door vallen en opstaan, geleid door een eindresultaat uit zijn omgeving. Een geautomatiseerde verificateur controleert of het antwoord van het model goed of fout is en levert een binaire beloning op, zoals een 0 of 1.
RLVR heeft last van schaarse en uniforme feedback. “Standaard GRPO heeft een probleem met de signaaldichtheid”, vertelde Chenxu Yang, co-auteur van het artikel, aan VentureBeat. “Een redeneringsspoor van meerdere duizenden tokens krijgt een enkele binaire beloning, en elk token binnen dat spoor krijgt identieke punten, of het nu een cruciale logische stap is of een wegwerpzin.” Het model leert daardoor nooit welke tussenstappen tot succes of mislukking hebben geleid.
Distillatie binnen het beleid (OPD) hanteert een andere aanpak. In plaats van te wachten op een eindresultaat, koppelen ontwikkelaars een kleiner leerlingmodel aan een groter, capabeler lerarenmodel. Voor elk trainingsvoorbeeld vergelijkt de leerling zijn reactie met die van de leraar, stukje voor stukje. Dit geeft de student gedetailleerde feedback over de hele redeneerketen en het proces voor het genereren van reacties.
Het implementeren en uitvoeren van een afzonderlijk, groot lerarenmodel naast de leerling gedurende het gehele trainingsproces brengt enorme rekenkundige overhead met zich mee. “Je moet tijdens de training een groter lerarenmodel behouden, wat je GPU-voetafdruk grofweg verdubbelt”, zei Yang. Bovendien moeten de leraren- en leerlingmodellen exact dezelfde woordenschatstructuur delen, die volgens Yang “stilletjes de meeste cross-architectuur, cross-modaliteit of meertalige opstellingen uitsluit die bedrijven daadwerkelijk gebruiken.”
De belofte en het falen van zelfdistillatie
On-Policy Self-Distillation (OPSD) kwam naar voren als een oplossing die was ontworpen om de tekortkomingen van de andere twee benaderingen te overwinnen. In OPSD speelt hetzelfde model de rol van zowel de leerling als de leraar.
Tijdens de training ontvangt de leerling een standaardprompt, terwijl de leraar bevoorrechte informatie ontvangt, zoals een geverifieerde, stapsgewijze antwoordsleutel. Deze goed geïnformeerde lerarenversie van het model evalueert vervolgens de leerlingversie en geeft token-voor-token feedback terwijl de leerling het probleem probeert op te lossen met alleen de standaardprompt.
OPSD lijkt het perfecte compromis voor een ondernemingsbudget. Het biedt de gedetailleerde, stapsgewijze begeleiding van OPD. Omdat het de noodzaak van een extern lerarenmodel elimineert, werkt het met de hoge rekenefficiëntie en lage kosten van RLVR, waarbij alleen een extra voorwaartse pas voor de leraar nodig is.
De onderzoekers ontdekten echter dat OPSD lijdt aan een fenomeen dat ‘bevoorrechte informatielekken’ wordt genoemd.
“Het doel is structureel slecht gesteld”, zei Yang. “Er is een onoverbrugbare kloof in wederzijdse informatie die de leerling nooit kan dichten… Wanneer zelfdistillatie wordt opgezet als distributiematching, wordt de leerling gevraagd de volledige outputverdeling van de leraar te imiteren onder een bevoorrechte context.”
Omdat de leraar de leerling evalueert op basis van een verborgen antwoordsleutel, dwingt het trainingsdoel het leerlingmodel om de exacte bewoordingen of stappen van de leraar te leren in plaats van de onderliggende redeneerlogica. Als gevolg hiervan begint het studentenmodel verwijzingen te hallucineren naar een onzichtbare oplossing waartoe het in de echte wereld geen toegang zal hebben.
In de praktijk laten OPSD-modellen al vroeg in de training een snelle prestatiepiek zien, maar hun redeneervermogen neemt snel af en neemt in de loop van de tijd geleidelijk af.
Ontkoppeling van richting en grootte met RLSD
De onderzoekers achter RLSD realiseerden zich dat de signalen die bepalen hoe een model zijn parameters bijwerkt, fundamenteel asymmetrische vereisten hebben. Ze stelden vast dat het signaal dat de richting van de update dicteert (dat wil zeggen of een gedrag moet worden versterkt of bestraft) schaars kan zijn, maar volkomen betrouwbaar moet zijn, omdat het model in de verkeerde richting wijzen zijn redeneringsbeleid schaadt.
Aan de andere kant profiteert het signaal dat de omvang van de update dicteert (dwz hoeveel relatieve eer of schuld een specifieke stap verdient) ervan dat het extreem compact is om fijnkorrelige, stapsgewijze correcties mogelijk te maken.
RLSD bouwt voort op dit principe door de updaterichting te ontkoppelen van de updategrootte. Het raamwerk laat de verifieerbare omgevingsfeedback van het RLVR-signaal strikt de richting van het leren bepalen. Het model krijgt alleen algemene versterking als het uiteindelijke antwoord objectief correct is.
De zelfleraar wordt ontdaan van zijn macht om te dicteren wat het model moet genereren. In plaats daarvan wordt de token-voor-token beoordeling van de docent opnieuw gebruikt om de omvang van de update te bepalen. Het verdeelt simpelweg het totale krediet of de schuld over de afzonderlijke stappen van het redeneerpad van het model.
Dit verandert de manier waarop het model leert in vergelijking met het klassieke OPSD-paradigma. In standaard OPSD werkt het trainingsdoel als gedragsklonen, waarbij het model gedwongen wordt om direct de exacte bewoordingen en formuleringen van de leraar te kopiëren. Dit zorgt ervoor dat de student hallucineert en verwijzingen lekt naar gegevens waarover hij niet beschikt.
In plaats van het model te dwingen een verborgen oplossing te kopiëren, biedt RLSD een natuurlijke en vrijwel gratis bron van kredietinformatie per token.
“De intuïtie: we leren het model niet om te redeneren zoals de leraar,” zei Yang. “We vertellen het model, op het pad dat het heeft gekozen, welke van zijn eigen tokens feitelijk het werk deden. De verkenningsdistributie van het model blijft zijn eigen. Alleen de krediettoewijzing wordt aangescherpt.”
Als een specifieke aftrek de juiste uitkomst sterk ondersteunt, krijgt deze een hogere score. Als het slechts een nutteloos opvulwoord is, krijgt het een basisscore. RLSD elimineert de noodzaak om complexe hulpbeloningsnetwerken te trainen, handmatig stapsgewijze gegevens te annoteren of enorme externe lerarenmodellen te onderhouden.
RLSD op de proef gesteld
Om RLSD te testen, trainden de onderzoekers het open-gewicht Qwen3-VL-8B visie-taalmodel en evalueerden het op verschillende benchmarks voor visueel redeneren. Deze omvatten MMMU voor multidisciplinaire vragen op universitair niveau, MathVista, MathVision, WeMath en ZeroBench, een stresstestbenchmark die expliciet is ontworpen om vrijwel onmogelijk te zijn voor de huidige grensmodellen.
Ze vergeleken het RLSD-model met het basismodel zonder post-training, standaard RLVR via het GRPO-algoritme, standaard OPSD en een hybride combinatie van beide.
RLSD presteerde aanzienlijk beter dan alle andere methoden en behaalde de hoogste gemiddelde nauwkeurigheid van 56,18% voor alle vijf benchmarks. Het versloeg het basismodel met 4,69% en presteerde beter dan de standaard RLVR met 2,32%. De winst was het meest uitgesproken bij complexe wiskundige redeneringstaken, waarbij RLSD 3,91% beter presteerde dan de standaard RLVR op de MathVision-benchmark.
Naast nauwkeurigheid biedt het raamwerk enorme efficiëntiewinsten. “Concreet is de RLSD bij 200 trainingsstappen al beter dan de GRPO die is getraind voor 400 stappen, dus ongeveer 2x de convergentieversnelling,” zei Yang. “Wat de kosten betreft, is de enige overhead buiten een normale GRPO-pijplijn één extra voorwaartse doorgang per antwoord om logits van docenten te verzamelen. Vergeleken met het genereren van uitrol… dat is in principe gratis.”
In tegenstelling tot OPSD, waar de prestaties piekten en vervolgens volledig instortten als gevolg van informatielekken, handhaafde RLSD de trainingsstabiliteit op de lange termijn en convergeerde het naar een hoger prestatieplafond dan standaardmethoden.
De kwalitatieve bevindingen benadrukken hoe het model zijn leergedrag verandert. In een complexe visuele teltaak kijkt standaard RLVR bijvoorbeeld naar het uiteindelijke juiste antwoord en geeft de hele paragraaf met redeneerfiches dezelfde beloning. RLSD heeft chirurgisch beloningen toegepast op de specifieke wiskundige aftrekkingsstappen die het probleem hebben opgelost, terwijl generieke opvulteksten zoals “Kijkend naar de afbeelding, zie ik…” actief worden verlaagd.
In een ander voorbeeld voerde het model een onjuiste wiskundige afleiding uit op basis van een staafdiagram. In plaats van de hele reactie als een mislukking te bestempelen, concentreerde RLSD de zwaarste straf op het exacte punt waar het model een relatie uit de grafiek verkeerd interpreteerde. Het bleef neutraal over de rest van de logische opzet en erkende dat het oorspronkelijke raamwerk geldig was.
Dit is vooral belangrijk voor rommelige, real-world zakelijke gebruiksscenario’s. Als een model een fout maakt bij het analyseren van een kwartaalrapport van vijftig pagina’s, willen ontwikkelaars niet dat het het hele analytische raamwerk afleert. Ze willen alleen dat het de specifieke veronderstelling herstelt die verkeerd was. Met RLSD kan het model precies leren welke logische sprongen waardevol zijn en welke gebrekkig zijn, token voor token. Omdat RLSD dit doet door het model zelf een nieuwe bestemming te geven, biedt het modellen gedetailleerde redeneringsmogelijkheden, terwijl de kosten van training redelijk blijven.
Hoe bedrijven aan de slag kunnen
Voor data-ingenieurs en AI-orkestratieteams is de integratie van RLSD eenvoudig, maar vereist wel de juiste configuratie. De meest kritische vereiste is een verifieerbaar beloningssignaal, zoals codecompilers, wiskundige checkers, SQL-uitvoering of schemavalidators. “Taken zonder verifieerbare beloning (dialoog met een open einde, schrijven van merkstemmen) horen thuis in op voorkeuren gebaseerde pijplijnen,” zei Yang.
RLSD is echter zeer flexibel met betrekking tot de bevoorrechte informatie die het vereist. Terwijl OPSD structureel volledige sporen van tussenredenen vereist, waardoor bedrijven gedwongen worden annotatoren te betalen of uit een grensmodel te distilleren, doet RLSD dat niet.
“Als je over volledig geverifieerde redeneersporen beschikt, geweldig, dan zal RLSD ze gebruiken,” zei Yang. “Als je alleen maar het definitieve antwoord op de grond-waarheid hebt, werkt dat ook… OPSD heeft deze flexibiliteit niet.”
Het integreren van de techniek in bestaande open-source multimodale RL-frameworks zoals veRL of EasyR1 is ongelooflijk licht. Volgens Yang vereist het geen herschrijving van het raamwerk en past het rechtstreeks in de standaardstack. Bij het wisselen van code hoeft u alleen maar tientallen regels te wijzigen om de GRPO-doelstelling aan te passen en de leraar met de leerling te synchroniseren.
Vooruitkijkend biedt RLSD een krachtige manier voor ondernemingen om hun bestaande interne activa te maximaliseren.
“De bedrijfseigen gegevens die bedrijven binnen hun perimeter bewaren (compliancehandleidingen, interne documentatie, historische tickets, geverifieerde codefragmenten) zijn in wezen gratis bevoorrechte informatie”, concludeerde Yang. “Met RLSD kunnen bedrijven dit soort gegevens rechtstreeks in een geprivilegieerde context invoeren, waardoor het leersignaal op kleinere modellen wordt verscherpt zonder dat er een externe leraar nodig is en zonder iets buiten het netwerk te sturen.”


