Home Nieuws Een nieuwe manier om de mogelijkheden van grote taalmodellen te vergroten |...

Een nieuwe manier om de mogelijkheden van grote taalmodellen te vergroten | MIT-nieuws

2
0
Een nieuwe manier om de mogelijkheden van grote taalmodellen te vergroten | MIT-nieuws

De meeste talen gebruiken woordpositie en zinsstructuur om betekenis te extraheren. Bijvoorbeeld: ‘De kat zat op de doos’ is niet hetzelfde als ‘De doos stond op de kat’. In een lange tekst, zoals een financieel document of een roman, evolueert de syntaxis van deze woorden waarschijnlijk.

Op dezelfde manier kan een persoon variabelen in een stukje code volgen of instructies volgen die voorwaardelijke acties hebben. Dit zijn voorbeelden van staatsveranderingen en sequentieel redeneren waarvan we verwachten dat de modernste kunstmatige-intelligentiesystemen daarin zullen uitblinken; Het bestaande, geavanceerde aandachtsmechanisme binnen transformers – de architectuur die voornamelijk wordt gebruikt in grote taalmodellen (LLM’s) om het belang van woorden te bepalen – heeft echter theoretische en empirische beperkingen als het gaat om dergelijke mogelijkheden.

Een aandachtsmechanisme stelt een LLM in staat terug te kijken naar eerdere delen van een vraag of document en, op basis van zijn training, te bepalen welke details en woorden er het meest toe doen; dit mechanisme alleen begrijpt echter de woordvolgorde niet. Het ‘ziet’ alle invoerwoorden, oftewel tokens, tegelijkertijd en verwerkt ze in de volgorde waarin ze worden gepresenteerd. Daarom hebben onderzoekers technieken ontwikkeld om positie-informatie te coderen. Dit is essentieel voor domeinen die zeer gestructureerd zijn, zoals taal. Maar de overheersende methode voor positiecodering, genaamd Rotary Position Encoding (RoPE), houdt alleen rekening met de relatieve afstand tussen tokens in een reeks en is onafhankelijk van de invoergegevens. Dit betekent dat bijvoorbeeld woorden die vier posities uit elkaar liggen, zoals ‘kat’ en ‘doos’ in het bovenstaande voorbeeld, allemaal dezelfde vaste wiskundige rotatie zullen krijgen die specifiek is voor die relatieve afstand.

Nu heeft onderzoek onder leiding van MIT en het MIT-IBM Watson AI Lab een coderingstechniek opgeleverd die bekend staat als ‘PaTH Attention’ en die positionele informatie adaptief en contextbewust maakt in plaats van statisch, zoals bij RoPE.

“Transformers maken nauwkeurige en schaalbare modellering van veel domeinen mogelijk, maar ze hebben deze beperkingen ten opzichte van state-tracking, een klasse van verschijnselen waarvan wordt gedacht dat ze ten grondslag liggen aan belangrijke mogelijkheden die we willen in onze AI-systemen. De belangrijke vraag is dus: hoe kunnen we de schaalbaarheid en efficiëntie van transformatoren behouden, terwijl we state-tracking mogelijk maken?” zegt senior auteur van het artikel, Yoon Kim, universitair hoofddocent bij de afdeling Elektrotechniek en Computerwetenschappen (EECS), lid van het Computer Science and Artificial Intelligence Laboratory (CSAIL) en onderzoeker bij het MIT-IBM Watson AI Lab.

Een nieuw artikel over dit werk werd eerder deze maand gepresenteerd op de Conference on Neural Information Processing Systems (NeurIPS). Kim’s co-auteurs zijn onder meer hoofdauteur Songlin Yang, een EECS-afgestudeerde student en voormalig MIT-IBM Watson AI Lab Summer Program-stagiair; Kaiyue Wen van Stanford Universiteit; Liliang Ren van Microsoft; en Yikang Shen, Shawn Tan, Mayank Mishra en Rameswar Panda van IBM Research en het MIT-IBM Watson AI Lab.

Pad naar begrip

In plaats van elk woord een vaste rotatie toe te wijzen op basis van de relatieve afstand tussen tokens, zoals RoPE doet, is PaTH Attention flexibel, waarbij de tussenliggende woorden worden behandeld als een pad dat bestaat uit kleine, data-afhankelijke transformaties. Elke transformatie, gebaseerd op een wiskundige bewerking die een Householder-reflectie wordt genoemd, fungeert als een kleine spiegel die zich aanpast afhankelijk van de inhoud van elk token dat wordt doorgegeven. Elke stap in een reeks kan van invloed zijn op de manier waarop het model informatie later interpreteert. Door het cumulatieve effect kan het systeem modelleren hoe de betekenis verandert langs het pad tussen woorden, en niet alleen hoe ver ze uit elkaar liggen. Met deze aanpak kunnen transformatoren bijhouden hoe entiteiten en relaties in de loop van de tijd veranderen, waardoor het een gevoel van ‘positioneel geheugen’ krijgt. Zie dit als het bewandelen van een pad terwijl je je omgeving ervaart en hoe deze je beïnvloedt. Verder heeft het team ook een hardware-efficiënt algoritme ontwikkeld om de aandachtsscores tussen elk paar tokens efficiënter te berekenen, zodat de cumulatieve wiskundige transformatie van PaTH Attention wordt gecomprimeerd en opgesplitst in kleinere berekeningen, zodat deze compatibel is met snelle verwerking op GPU’s.

De MIT-IBM-onderzoekers onderzochten vervolgens de prestaties van PaTH Attention op synthetische en reële taken, inclusief redeneren, lange-contextbenchmarks en volledige LLM-training om te zien of dit het vermogen van een model om informatie bij te houden in de loop van de tijd verbeterde. Het team testte zijn vermogen om het meest recente ‘schrijf’-commando te volgen, ondanks veel afleidende stappen en meerstaps terugroeptests, taken die moeilijk zijn voor standaard positionele coderingsmethoden zoals RoPE. De onderzoekers trainden ook middelgrote LLM’s en vergeleken deze met andere methoden. PaTH Aandacht verbeterde de verwarring en overtrof andere methoden op het gebied van redeneerbenchmarks waarop het niet was getraind. Ze evalueerden ook het ophalen, redeneren en stabiliteit met de invoer van tienduizenden tokens. PaTH Aandacht bleek consequent in staat tot inhoudsbewustzijn.

“We ontdekten dat onze nieuwe aanpak, zowel bij diagnostische taken die zijn ontworpen om de beperkingen van transformatoren te testen als bij taken voor taalmodellering in de echte wereld, beter presteerde dan de bestaande aandachtsmechanismen, terwijl de efficiëntie ervan behouden bleef”, zegt Kim. Verder: “Ik zou graag willen zien of dit soort data-afhankelijke positiecoderingen, zoals PATH, de prestaties van transformatoren op gestructureerde domeinen zoals biologie, bij (het analyseren van) eiwitten of DNA verbeteren.”

Groter en efficiënter denken

De onderzoekers onderzochten vervolgens hoe het PaTH-aandachtsmechanisme zou presteren als het op vergelijkbare wijze de menselijke cognitie zou nabootsen, waarbij we oude of minder relevante informatie negeren bij het nemen van beslissingen. Om dit te doen combineerden ze PaTH Attention met een ander positiecoderingsschema dat bekend staat als de Forgetting Transformer (FoX), waarmee modellen selectief kunnen ‘vergeten’. Het resulterende PaTH-FoX-systeem voegt een manier toe om informatie op een data-afhankelijke manier te verkleinen, waardoor sterke resultaten worden behaald op het gebied van redeneren, begrip van lange contexten en benchmarks voor taalmodellering. Op deze manier breidt PaTH Attention de expressieve kracht van transformatorarchitecturen uit.

Kim zegt dat dit soort onderzoek deel uitmaakt van een bredere inspanning om het ‘next big thing’ op het gebied van AI te ontwikkelen. Hij legt uit dat een belangrijke aanjager van zowel de deep learning- als de generatieve AI-revoluties de creatie is geweest van ‘bouwstenen voor algemene doeleinden die kunnen worden toegepast op brede domeinen’, zoals ‘convolutielagen, RNN-lagen (recurrent neuraal netwerk)’ en, meest recentelijk, transformatoren. Vooruitkijkend merkt Kim op dat overwegingen als nauwkeurigheid, expressiviteit, flexibiliteit en hardwareschaalbaarheid essentieel zijn en zullen blijven. Zoals hij het stelt: “de kernactiviteit van het moderne architectuuronderzoek is het bedenken van deze nieuwe primitieven die de expressiviteit behouden of verbeteren, terwijl ze ook schaalbaar zijn.”

Dit werk werd gedeeltelijk ondersteund door het MIT-IBM Watson AI Lab en het AI2050-programma van Schmidt Sciences.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in