Home Nieuws Nieuwe methode zou de LLM-trainingsefficiëntie kunnen vergroten | MIT-nieuws

Nieuwe methode zou de LLM-trainingsefficiëntie kunnen vergroten | MIT-nieuws

3
0
Nieuwe methode zou de LLM-trainingsefficiëntie kunnen vergroten | MIT-nieuws

Redeneren Grote taalmodellen (LLM’s) zijn ontworpen om complexe problemen op te lossen door ze op te splitsen in een reeks kleinere stappen. Deze krachtige modellen zijn vooral goed in uitdagende taken zoals geavanceerd programmeren en meerstapsplanning.

Maar het ontwikkelen van redeneermodellen vergt een enorme hoeveelheid rekenwerk en energie vanwege de inefficiëntie in het trainingsproces. Terwijl een paar van de krachtige processors voortdurend ingewikkelde zoekopdrachten verwerken, zitten anderen in de groep stil.

Onderzoekers van MIT en elders hebben een manier gevonden om deze computeronderbreking te gebruiken om de training van redeneermodellen efficiënt te versnellen.

Hun nieuwe methode traint automatisch een kleiner, sneller model om de uitkomsten van de grotere redenerings-LLM te voorspellen, die het grotere model verifieert. Dit vermindert de hoeveelheid werk die het redeneermodel moet doen, waardoor het trainingsproces wordt versneld.

De sleutel tot dit systeem is het vermogen om het kleinere model adaptief te trainen en in te zetten, zodat het alleen in werking treedt als sommige processors inactief zijn. Door gebruik te maken van computerbronnen die anders verspild zouden zijn, versnelt het de training zonder extra overhead.

Bij testen op meerdere LLM’s voor redeneren verdubbelde de methode de trainingssnelheid terwijl de nauwkeurigheid behouden bleef. Dit zou de kosten kunnen verlagen en de energie-efficiëntie kunnen verhogen van het ontwikkelen van geavanceerde LLM’s voor toepassingen zoals het voorspellen van financiële trends of het detecteren van risico’s in elektriciteitsnetwerken.

“Mensen willen modellen die complexere taken aankunnen. Maar als dat het doel is van modelontwikkeling, dan moeten we prioriteit geven aan efficiëntie. We hebben een verliesvrije oplossing voor dit probleem gevonden en vervolgens een full-stack systeem ontwikkeld dat in de praktijk behoorlijk dramatische versnellingen kan opleveren”, zegt Qinghao Hu, een MIT-postdoc en co-hoofdauteur van een artikel over deze techniek.

Hij wordt op het papier vergezeld door co-hoofdauteur Shang Yang, een afgestudeerde student elektrotechniek en computerwetenschappen (EECS); Junxian Guo, een EECS-afgestudeerde student; senior auteur Song Han, universitair hoofddocent bij EECS, lid van het Research Laboratory of Electronics en een vooraanstaand wetenschapper van NVIDIA; evenals anderen bij NVIDIA, ETH Zürich, het MIT-IBM Watson AI Lab en de Universiteit van Massachusetts in Amherst. Het onderzoek zal worden gepresenteerd op de ACM International Conference on Architectural Support for Programming Languages ​​and Operating Systems.

Knelpunt in de opleiding

Ontwikkelaars willen redenerende LLM’s om fouten in hun kritische denkproces te identificeren en te corrigeren. Deze mogelijkheid stelt hen in staat ingewikkelde vragen te beantwoorden die een standaard LLM zouden doen struikelen.

Om hen deze vaardigheid te leren, trainen ontwikkelaars redenerende LLM’s met behulp van een techniek die versterkend leren (RL) wordt genoemd. Het model genereert meerdere potentiële antwoorden op een vraag, ontvangt een beloning voor de beste kandidaat en wordt bijgewerkt op basis van het beste antwoord. Deze stappen worden duizenden keren herhaald terwijl het model leert.

Maar de onderzoekers ontdekten dat het proces van het genereren van meerdere antwoorden, de zogenaamde uitrol, maar liefst 85 procent van de uitvoeringstijd kan in beslag nemen die nodig is voor RL-training.

“Het bijwerken van het model – het eigenlijke ‘trainingsdeel’ – kost in vergelijking heel weinig tijd”, zegt Hu.

Dit knelpunt doet zich voor bij standaard RL-algoritmen omdat alle processors in de trainingsgroep hun antwoorden moeten voltooien voordat ze naar de volgende stap kunnen gaan. Omdat sommige processors aan zeer lange reacties werken, wachten andere die kortere reacties hebben gegenereerd, tot ze klaar zijn.

“Ons doel was om deze inactieve tijd om te zetten in versnelling, zonder verspilde kosten”, voegt Hu toe.

Ze probeerden een bestaande techniek te gebruiken, speculatieve decodering genaamd, om de zaken te versnellen. Speculatieve decodering omvat het trainen van een kleiner model, een tekenaar genaamd, om snel de toekomstige resultaten van het grotere model te raden.

Het grotere model verifieert de gissingen van de opsteller en de geaccepteerde antwoorden worden gebruikt voor training.

Omdat het grotere model alle gissingen van de opsteller in één keer kan verifiëren, in plaats van elke output opeenvolgend te genereren, versnelt het het proces.

Een adaptieve oplossing

Maar bij speculatieve decodering wordt het tekenmodel doorgaans slechts één keer getraind en blijft het statisch. Dit maakt de techniek onhaalbaar voor versterkend leren, aangezien het redeneermodel tijdens de training duizenden keren wordt bijgewerkt.

Een statische tekenaar zou na een paar stappen snel muf en nutteloos worden.

Om dit probleem te overwinnen, creëerden de onderzoekers een flexibel systeem dat bekend staat als ‘Taming the Long Tail’ of TLT.

Het eerste deel van TLT is een adaptieve tekentrainer, die vrije tijd op inactieve processors gebruikt om het tekenmodel on-the-fly te trainen, waardoor het goed op één lijn blijft met het doelmodel zonder extra computerbronnen te gebruiken.

Het tweede onderdeel, een adaptieve uitrolengine, beheert speculatieve decodering om automatisch de optimale strategie voor elke nieuwe batch invoer te selecteren. Dit mechanisme verandert de speculatieve decoderingsconfiguratie op basis van de kenmerken van de trainingswerklast, zoals het aantal invoer dat door het conceptmodel wordt verwerkt en het aantal invoer dat door het doelmodel wordt geaccepteerd tijdens verificatie.

Bovendien hebben de onderzoekers het conceptmodel zo ontworpen dat het licht van gewicht is, zodat het snel kan worden getraind. TLT hergebruikt een aantal componenten van het redeneermodeltrainingsproces om de tekenaar te trainen, wat tot extra versnellingswinst leidt.

“Zodra sommige processors hun korte zoekopdrachten hebben voltooid en inactief zijn, schakelen we ze onmiddellijk over om conceptmodeltraining te doen met dezelfde gegevens die ze gebruiken voor het uitrolproces. Het belangrijkste mechanisme is onze adaptieve speculatieve decodering – deze winst zou zonder dit niet mogelijk zijn”, zegt Hu.

Ze testten TLT met meerdere LLM’s voor redeneren die waren getraind met behulp van datasets uit de echte wereld. Het systeem versnelde de training met 70 tot 210 procent, terwijl de nauwkeurigheid van elk model behouden bleef.

Als extra bonus zou het kleine tekenmodel gemakkelijk kunnen worden gebruikt voor efficiënte implementatie als gratis bijproduct.

In de toekomst willen de onderzoekers TLT integreren in meer soorten trainings- en inferentiekaders en nieuwe toepassingen voor versterkend leren vinden die met deze aanpak kunnen worden versneld.

“Aangezien redeneren de belangrijkste werklast blijft worden die de vraag naar gevolgtrekkingen aanstuurt, is Qinghao’s TLT geweldig werk om het rekenknelpunt bij het trainen van deze redeneermodellen aan te pakken. Ik denk dat deze methode zeer nuttig zal zijn in de context van efficiënt AI-computing”, zegt Han.

Dit werk wordt gefinancierd door het MIT-IBM Watson AI Lab, het MIT AI Hardware Program, de MIT Amazon Science Hub, Hyundai Motor Company en de National Science Foundation.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in