Home Nieuws Dankzij de nieuwe verfijningsmethode van MIT kunnen LLM’s nieuwe vaardigheden leren zonder...

Dankzij de nieuwe verfijningsmethode van MIT kunnen LLM’s nieuwe vaardigheden leren zonder oude vaardigheden te verliezen

3
0
Dankzij de nieuwe verfijningsmethode van MIT kunnen LLM’s nieuwe vaardigheden leren zonder oude vaardigheden te verliezen

Wanneer bedrijven LLM’s afstemmen op nieuwe taken, lopen ze het risico alles te verbreken wat de modellen al weten. Dit dwingt bedrijven om voor elke vaardigheid aparte modellen te hanteren.

Onderzoekers van MIT, het Improbable AI Lab en ETH Zürich hebben een nieuwe techniek ontwikkeld waarmee grote taalmodellen nieuwe vaardigheden en kennis kunnen leren zonder hun vroegere capaciteiten te vergeten.

Hun techniek, genaamd zelfdistillatie fijnafstemming (SDFT), stelt modellen in staat rechtstreeks te leren van demonstraties en hun eigen experimenten door gebruik te maken van de inherente in-context leermogelijkheden van moderne LLM’s. Experimenten tonen aan dat SDFT consistent beter presteert dan traditionele supervisie-fine-tuning (SFT), terwijl de beperkingen van algoritmen voor versterkend leren worden aangepakt.

Voor bedrijfsapplicaties maakt de methode het mogelijk dat één enkel model in de loop van de tijd meerdere vaardigheden verzamelt zonder te lijden onder prestatieverlies bij eerdere taken. Dit biedt een potentieel pad voor het bouwen van AI-agenten die zich kunnen aanpassen aan dynamische zakelijke omgevingen, waarbij ze indien nodig nieuwe eigen kennis en vaardigheden kunnen verzamelen zonder dure omscholingscycli te vereisen of hun algemene redeneervermogen te verliezen.

De uitdaging van voortdurend leren

Zodra een LLM is getraind en ingezet, blijft deze statisch. Het werkt zijn parameters niet bij om nieuwe vaardigheden te verwerven, nieuwe kennis te internaliseren of om door ervaring te verbeteren. Om echt adaptieve AI te bouwen, moet de industrie oplossingenvoortdurend leren”, waardoor systemen kennis kunnen vergaren, net zoals mensen dat gedurende hun hele loopbaan doen.

De meest effectieve manier waarop modellen kunnen leren is door middel van ‘on-policy learning’. Bij deze benadering leert het model van de gegevens die het zelf genereert, waardoor het zijn eigen fouten en redeneerprocessen kan corrigeren. Dit staat in contrast met leren door simpelweg statische datasets na te bootsen. Zonder beleidsmatig leren zijn modellen geneigd tot ‘catastrofaal vergeten,” een fenomeen waarbij het leren van een nieuwe taak ervoor zorgt dat het model zijn kennis uit het verleden en het vermogen om eerdere taken uit te voeren verliest.

Voor leren op het beleidsterrein is doorgaans echter wel behoefte aan inzicht versterkend leren (RL), die afhankelijk is van een expliciete beloningsfunctie om de output van het model te scoren. Dit werkt goed voor problemen met duidelijke uitkomsten, zoals wiskunde en coderen. Maar in veel praktijkscenario’s (bijvoorbeeld het schrijven van een juridisch document of het samenvatten van een bijeenkomst) is het definiëren van een wiskundige beloningsfunctie moeilijk of onmogelijk.

RL-methoden falen ook vaak als ze proberen een model geheel nieuwe informatie te leren, zoals een specifiek bedrijfsprotocol of een nieuwe productlijn. Zoals Idan Shenfeld, promovendus aan het MIT en co-auteur van het artikel, tegen VentureBeat zei: “Hoe vaak het basismodel het ook probeert, het kan geen correcte antwoorden genereren voor een onderwerp waar het geen kennis van heeft”, wat betekent dat het nooit een positief signaal krijgt om van te leren.

Het standaardalternatief is supervisie fine-tuning (SFT), waarbij het model wordt getraind op een vaste dataset van expertdemonstraties. Hoewel SFT duidelijke grondwaarheden biedt, valt het inherent buiten het beleid. Omdat het model alleen maar gegevens nabootst in plaats van te leren van zijn eigen pogingen, slaagt het er vaak niet in om te generaliseren naar voorbeelden die buiten de distributie vallen en lijdt het zwaar onder catastrofaal vergeten.

SDFT probeert deze kloof te overbruggen door de voordelen van beleidsgericht leren mogelijk te maken door alleen vooraf opgenomen demonstraties te gebruiken, zonder dat er een beloningsfunctie nodig is.

Hoe SDFT werkt

SDFT lost dit probleem op door gebruik te maken van ‘destillatie’, een proces waarbij een leerlingmodel een leraar leert nabootsen. Het inzicht van de onderzoekers was om de eigen ‘in-context learning’ (ICL)-mogelijkheden van het model te gebruiken om een ​​feedbacklus binnen één enkel model te creëren.

In-context leren is het fenomeen waarbij je de LLM een moeilijke taak geeft en een of meer demonstraties geeft van hoe vergelijkbare problemen worden opgelost. De meeste geavanceerde LLM’s zijn ontworpen om nieuwe problemen met ICL-voorbeelden op te lossen, zonder enige parameterupdates.

Tijdens de trainingscyclus gebruikt SDFT het model in twee rollen.

De leraar: Een bevroren versie van het model krijgt de zoekopdracht tezamen met demonstraties van experts. Met behulp van ICL leidt de leraar het juiste antwoord af en de redeneringslogica die nodig is om dit te bereiken.

De leerling: Deze versie ziet alleen de query en simuleert een real-world implementatiescenario waarin geen antwoordsleutel beschikbaar is.

Wanneer de leerling een antwoord genereert, geeft de docent, die toegang heeft tot de deskundige demonstraties, feedback. De leerling werkt vervolgens de parameters bij, zodat deze beter aansluiten bij de verdeling van de docent.

Dit proces creëert effectief een leerlus op het gebied van beleid door elementen van SFT en RL te combineren. Het toezicht komt niet voort uit een statische dataset, maar uit de eigen interactie en output van het model. Het stelt het model in staat zijn eigen redeneertrajecten te corrigeren zonder dat daarvoor een extern beloningssignaal nodig is. Dit proces werkt zelfs voor nieuwe kennis die RL zou missen.

SDFT in actie

Om de aanpak te valideren, testten de onderzoekers SDFT met behulp van het open gewicht Qwen 2.5-model over drie complexe vaardigheden op bedrijfsniveau: wetenschappelijke vragen en antwoorden, gebruik van softwaretools en medisch redeneren.

De resultaten toonden aan dat SDFT nieuwe taken effectiever leerde dan standaardmethoden. Op de Science Q&A-benchmark behaalde het SDFT-model een nauwkeurigheid van 70,2%, vergeleken met 66,2% voor de standaard SFT-benadering.

SDFT-kennisbehoud

In tegenstelling tot SFT behoudt SDFT de oorspronkelijke kennis van het model terwijl nieuwe taken en kennis worden geleerd (bron: arXiv)

Belangrijker voor de acceptatie door ondernemingen is de impact op catastrofaal vergeten. Toen het standaard SFT-model de wetenschappelijke taak leerde, stortte zijn vermogen om algemene vragen (zoals logica of geesteswetenschappen) te beantwoorden in. Daarentegen verbeterde het SDFT-model de wetenschappelijke taak, terwijl de score voor “Vorige taken” stabiel bleef op 64,5%. Deze stabiliteit suggereert dat bedrijven modellen zouden kunnen specialiseren voor specifieke afdelingen (bijvoorbeeld HR of Juridische zaken) zonder het fundamentele gezond verstand of redeneervermogen van het model aan te tasten.

Het team simuleerde ook een scenario voor kennisinjectie, waarbij een dataset van fictieve ‘natuurrampen in 2025’ werd gecreëerd om het model nieuwe feiten te leren. Ze testten het model op indirecte redeneervragen, zoals “Welke landen hadden, gezien de overstromingen in 2025, waarschijnlijk humanitaire hulp nodig?”

Standaard SFT resulteerde in een model dat feiten uit het hoofd leerde, maar moeite had om ze te gebruiken in redeneerscenario’s. Het SDFT-model, dat de logica tijdens de training had geïnternaliseerd, scoorde 98% op dezelfde vragen.

Ten slotte voerden de onderzoekers een sequentieel leerexperiment uit, waarbij ze het model na elkaar trainden op wetenschap, gereedschapsgebruik en medische taken. Terwijl de prestaties van het standaardmodel schommelden en eerdere vaardigheden verloren gingen toen het nieuwe leerde, verzamelde het SDFT-model met succes alle drie de vaardigheden zonder regressie.

SDFT-sequentieel leren

SDFT kan achtereenvolgens verschillende vaardigheden leren, terwijl de eerdere kennis behouden blijft (bron: arXiv)

Deze mogelijkheid pakt een groot pijnpunt aan voor bedrijven die momenteel ‘modeldierentuinen’ van afzonderlijke adapters voor verschillende taken beheren.

“Wij bieden de mogelijkheid om slechts één enkel model te onderhouden voor alle behoeften van het bedrijf”, aldus Shenfeld. Deze consolidatie “kan leiden tot een substantiële verlaging van de inferentiekosten”, omdat organisaties niet meerdere modellen tegelijk hoeven te hosten.

SDFT-beperkingen en beschikbaarheid

De code voor SDFT is beschikbaar op GitHub en klaar om te worden geïntegreerd in bestaande modeltrainingsworkflows.

“De SDFT-pijplijn lijkt meer op de RL-pijplijn, omdat deze tijdens de training online responsgeneratie vereist”, aldus Shenfeld. Ze werken samen met Hugging Face om SDFT in laatstgenoemde te integreren Transformatorversterking leren (TRL)-bibliotheek, voegde hij eraan toe en merkte op dat er al een pull-verzoek openstaat voor ontwikkelaars die de integratie willen testen.

Voor teams die SDFT overwegen, komen de praktische afwegingen neer op modelgrootte en rekenkracht. De techniek vereist modellen die sterk genoeg zijn om in de context te leren om als hun eigen leraren te fungeren – momenteel ongeveer 4 miljard parameters met nieuwere architecturen zoals Qwen 3, hoewel Shenfeld verwacht dat modellen met 1 miljard parameters binnenkort zullen werken. Het vereist grofweg 2,5 keer zoveel rekenkracht als standaard verfijning, maar is het meest geschikt voor organisaties die één enkel model nodig hebben om in de loop van de tijd meerdere vaardigheden te verzamelen, vooral in domeinen waar het definiëren van een beloningsfunctie voor versterkend leren moeilijk of onmogelijk is.

Hoewel effectief, gaat de methode gepaard met computationele afwegingen. SDFT is ongeveer vier keer langzamer en vereist 2,5 keer meer rekenkracht (FLOP’s) dan standaard fijnafstemming, omdat het model tijdens de training actief zijn eigen antwoorden (“rollouts”) moet genereren om te vergelijken met de leraar. De onderzoekers merken echter op dat organisaties, omdat het model kennis beter vasthoudt, de kostbare, uit meerdere fasen bestaande herscholingsprocessen kunnen vermijden die vaak nodig zijn om modellen te repareren die lijden onder catastrofaal vergeten.

De techniek is er ook afhankelijk van dat het onderliggende model groot genoeg is om te profiteren van in-context leren. Het artikel merkt op dat kleinere modellen (bijvoorbeeld 3 miljard parameters) het aanvankelijk moeilijk hadden omdat ze niet over de ‘intelligentie’ beschikten om als hun eigen leraren op te treden.

Shenfeld zei echter dat de snelle verbetering van kleine modellen deze dynamiek verandert. “De Qwen 2.5 3B-modellen waren te zwak, maar bij sommige experimenten die we momenteel doen, hebben we ontdekt dat het Qwen 3 4B-model sterk genoeg is”, zei hij. “Ik zie een toekomst waarin zelfs 1B-modellen voldoende ICL-mogelijkheden hebben om SDFT te ondersteunen.”

Uiteindelijk is het doel om verder te gaan dan statische momentopnamen naar systemen die verbeteren door gebruik.

“Levenslang leren, samen met de mogelijkheid om leersignalen uit ongestructureerde gebruikersinteracties te halen… zal modellen opleveren die in de loop van de tijd blijven verbeteren”, aldus Shenfeld.

“Denk eens aan het feit dat het merendeel van de rekenkracht over de hele wereld al bezig is met inferentie in plaats van met trainen. We moeten manieren vinden om deze rekenkracht te benutten om onze modellen te verbeteren.”

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in