Home Nieuws De nieuwe AI-trainingsmethode van Google helpt kleine modellen complexe redeneringen aan te...

De nieuwe AI-trainingsmethode van Google helpt kleine modellen complexe redeneringen aan te pakken

11
0
De nieuwe AI-trainingsmethode van Google helpt kleine modellen complexe redeneringen aan te pakken

Onderzoekers bij Google Cloud En UCLA hebben een nieuw raamwerk voor versterkend leren voorgesteld dat het vermogen van taalmodellen om zeer uitdagende redeneertaken in meerdere stappen te leren aanzienlijk verbetert. Begeleid versterkend leren (SRL) herformuleert het oplossen van problemen als een opeenvolging van logische ‘acties’, die rijke leersignalen opleveren tijdens het trainingsproces.

Deze aanpak maakt het mogelijk dat kleinere modellen complexe problemen kunnen leren die voorheen buiten het bereik van andere veelgebruikte trainingstechnieken lagen. Experimenten tonen aan dat SRL niet alleen uitblinkt op het gebied van wiskundig redeneren, maar ook effectief generaliseert naar agentische software-engineeringtaken.

SRL is een veelzijdig trainingsframework dat kleinere en goedkopere modellen naar een hoger redeneervermogen kan tillen.

De grenzen van de huidige LLM-redeneertraining

Recente ontwikkelingen bij het trainen van grote taalmodellen (LLM’s) voor redeneren zijn grotendeels te danken aan versterkend leren met verifieerbare beloningen (RLVR), een methode waarbij een model wordt beloond op basis van de juistheid van het uiteindelijke antwoord. Door herhaaldelijk te proberen problemen op te lossen en feedback te krijgen over de uiteindelijke uitkomst, leert het model geleidelijk effectieve probleemoplossende strategieën.

Het succes van deze op resultaten gebaseerde aanpak hangt echter af van het vermogen van het model om binnen een beperkt aantal pogingen, oftewel ‘uitrol’, een correcte oplossing te vinden. Omdat elke uitrol rekentechnisch duur is, kunnen modellen niet voor onbepaalde tijd proberen. Deze methode stuit op een muur wanneer problemen zo moeilijk zijn dat het model zelden of nooit het juiste antwoord vindt binnen zijn budget.

Dit creëert een kritisch leerknelpunt. Bij veel meerstapsredeneringsproblemen kan een model meerdere stappen correct oplossen, maar ontsporen door een enkele fout, wat tot een onjuist antwoord leidt. Met RLVR krijgt deze hele inspanning een negatieve beloning, en het model leert niets van zijn gedeeltelijk correcte werk. Het is een alles-of-niets-aanpak die geen gedetailleerde feedback oplevert en weinig beloningen oplevert.

Een alternatieve methode is supervisie fine-tuning (SFT), waarbij het model leert van voorbeelden die het volledige redeneerproces bevatten, opgesteld door experts. Hoewel SFT het redeneervermogen kan aanwakkeren, leidt het vaak tot overfitting (het model leert simpelweg de trajecten in de trainingsgegevens te imiteren in plaats van te leren generaliseren naar problemen die verder gaan dan de voorbeelden die het heeft gezien). Dit probleem wordt verergerd door het feit dat hoogwaardige, door mensen gecreëerde trainingsgegevens zowel schaars als duur zijn om te produceren.

Zoals het artikel opmerkt, laten deze beperkingen “een cruciale leemte achter voor het trainen van kleine open-sourcemodellen om effectief moeilijke problemen te leren.”

Hoe begeleid versterkend leren werkt

SRL introduceert een raamwerk dat het oplossen van problemen herformuleert als een ‘opeenvolgend besluitvormingsproces’, waarbij een evenwicht wordt gevonden tussen puur resultaatgericht RL en puur imitatieleren. In plaats van alleen te optimaliseren voor het uiteindelijke antwoord of het model te dwingen het hele denkproces van een expert te imiteren, leert SRL het model een reeks sleutelacties te reproduceren die de ruggengraat vormen van het redeneren van experts. Hierdoor kan het model leren acties te ondernemen die vergelijkbaar zijn met die van een expert, terwijl het zijn eigen interne redeneerstijl ontwikkelt.

In het SRL-raamwerk worden demonstraties van deskundigen opgesplitst in een reeks tussenliggende, concrete acties, die elk een betekenisvolle stap vertegenwoordigen. Voor een wiskundig probleem kan een actie een algebraïsche manipulatie zijn. Voor een software-engineeringagent kan het een opdracht zijn die wordt uitgevoerd in een codeopslagplaats. Om trainingsdata te genereren gebruikt SRL een krachtig lerarenmodel om oplossingstrajecten te creëren, die vervolgens worden gebruikt om een ​​kleiner model te trainen.

Volgens I-Hung Hsu, onderzoekswetenschapper bij Google en co-auteur van het artikel, is deze middenwegbenadering van cruciaal belang voor de effectiviteit ervan in reële scenario’s. “SRL zit in het midden: het weerspiegelt de gestructureerde flexibiliteit van het oplossen van problemen in de echte wereld, waarbij er meerdere geldige strategieën zijn, maar ook duidelijke ideeën over hoe ‘goed redeneren’ er bij elke stap uitziet”, vertelde Hsu aan VentureBeat. “Dit maakt SRL geschikt voor domeinen als data science-automatisering of waarschijnlijk supply chain-optimalisatie – taken die gezonde tussentijdse redeneringen belonen in plaats van louter definitieve antwoorden.”

Tijdens de training genereert het model eerst een ‘innerlijke monoloog’ (het interne redeneringsproces, ingesloten in tags) voordat u een actie onderneemt. Bij elke stap biedt SRL een beloning op basis van de gelijkenis tussen de voorspelde actie van het model en de actie van de expert. Dit stapsgewijze beloningssysteem biedt compacte, fijnmazige feedback, waardoor het model kan leren en verbeteren, zelfs als de algehele oplossing niet perfect is. Dit lost het schaarse beloningsprobleem op waarmee RLVR wordt geconfronteerd.

SRL in actie

Uit de experimenten van de onderzoekers blijkt dat SRL aanzienlijk beter presteert dan sterke basislijnen in zowel uitdagende wiskundige redeneringen als benchmarks voor agentische software-engineering. Ze merkten ook op dat SRL flexibelere en geavanceerdere redeneerpatronen in modellen aanmoedigt, zoals interleaved planning en zelfverificatie, die de kwaliteit van de oplossing verbeteren zonder de resultaten alleen maar langer te maken.

Voor bedrijfsleiders zijn prestatieverbeteringen alleen waardevol als ze niet gepaard gaan met op hol geslagen kosten. Hsu verduidelijkt dat door SRL getrainde modellen efficiënter redeneren. “De winst komt voort uit een betere redeneerkwaliteit en -structuur, niet uit breedsprakigheid”, zei hij. “In termen van efficiëntie zijn door SRL getrainde modellen ongeveer gelijk aan het basismodel wat betreft tokengebruik… hoewel SRL niet is ontworpen om de inferentiekosten te verlagen, bereikt het sterkere redeneerprestaties zonder deze te verhogen.”

Voor de wiskundetoetsen heeft het team zich verfijnd Qwen2.5-7B-Instrueer op een dataset van 1000 moeilijke wiskundevragen. Ze vergeleken de prestaties met modellen die waren getraind met SFT en RLVR (met behulp van het GRPO-algoritme dat gebruikelijk is in modellen zoals DeepSeek-R1) op vier wiskundebenchmarks op competitieniveau. Het door SRL getrainde model behaalde een aanzienlijke gemiddelde prestatieverbetering van 3,0% ten opzichte van andere methoden.

Het team breidde SRL uit naar agentische software-engineering, een domein dat cruciaal is voor bedrijfsautomatisering. Ze hebben een op coderen gespecialiseerd model getraind, Qwen2.5-Coder-7B-Instrueerop 5.000 experttrajecten van agenten die interactie hebben met een codeeromgeving. Het door SRL getrainde model werd vergeleken met het oorspronkelijke basismodel en SWE-Gym-7B, een sterke basislijn verfijnd met SFT. SRL behaalde een taakoplossingspercentage van 14,8%, wat neerkomt op een relatieve verbetering van 74% ten opzichte van het op SFT gebaseerde model. Dit toont het vermogen van SRL aan om competentere AI-agenten te trainen voor complexe, real-world programmeertaken.

Een nieuwe standaard voor AI met hoge inzet?

De sterkste resultaten van het artikel kwamen voort uit het combineren van methoden: eerst het gebruik van SRL om fundamenteel redeneren aan te leren, en vervolgens het gebruik van RLVR om die vaardigheid te verfijnen. In hun experimenten, toen de onderzoekers SRL gebruikten als pre-training en RLVR toepasten tijdens de post-training, constateerden ze een gemiddelde stijging van 3,7%, wat een krachtige leerstrategie voor het curriculum aantoont.

Dit roept de vraag op of dit een nieuwe blauwdruk zou kunnen worden voor het bouwen van gespecialiseerde AI.

“Wij beschouwen SRL als een sterke basis”, zei Hsu. “In zekere zin biedt SRL een curriculum – modellen aanleren om stap voor stap te denken en te handelen – voordat we dat gedrag verfijnen met resultaatgericht versterkend leren. Deze SRL-eerste benadering stabiliseert niet alleen de latere RL-fase, maar maakt redeneren ook beter interpreteerbaar en generaliseerbaar, wat van cruciaal belang is voor toepassingen met hoge inzet.”

Vooruitkijkend erkent Hsu dat het opschalen van deze pijplijn nog steeds voor uitdagingen staat, met name de hoge kosten en complexiteit van end-to-end RLVR voor agentische taken. Hij is echter optimistisch over de weg voorwaarts. “Hoewel hoogwaardige experttrajecten belangrijk blijven”, concludeerde hij, “denken we dat de volgende grote stap zal komen uit het automatiseren van het genereren en filteren ervan – door gebruik te maken van sterke lerarenmodellen of zelfs zelfverbeterende studentenmodellen om nieuwe gegevens op te bouwen.”

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in