Home Nieuws Het ‘Nested Learning’-paradigma van Google zou het geheugen- en voortdurende leerprobleem van...

Het ‘Nested Learning’-paradigma van Google zou het geheugen- en voortdurende leerprobleem van AI kunnen oplossen

2
0
Het ‘Nested Learning’-paradigma van Google zou het geheugen- en voortdurende leerprobleem van AI kunnen oplossen

Onderzoekers bij Google hebben een nieuw AI-paradigma ontwikkeld dat gericht is op het oplossen van een van de grootste beperkingen van de hedendaagse grote taalmodellen: hun onvermogen om na training hun kennis te leren of bij te werken. Het paradigma, genaamd Genest lerenherformuleert een model en de training ervan, niet als een enkel proces, maar als een systeem van geneste optimalisatieproblemen op meerdere niveaus. De onderzoekers beweren dat deze aanpak expressievere leeralgoritmen kan ontsluiten, wat leidt tot beter in-context leren en geheugen.

Om hun concept te bewijzen, gebruikten de onderzoekers Nested Learning om een ​​nieuw model te ontwikkelen, genaamd Hope. Uit eerste experimenten blijkt dat het superieure prestaties levert op het gebied van taalmodellering, continu leren en redeneertaken in een lange context, wat mogelijk de weg vrijmaakt voor efficiënte AI-systemen die zich kunnen aanpassen aan reële omgevingen.

Het geheugenprobleem van grote taalmodellen

Diepgaande leeralgoritmen hielp de noodzaak van de zorgvuldige engineering en domeinexpertise die traditioneel machinaal leren vereist, te ondervangen. Door modellen enorme hoeveelheden gegevens te verstrekken, konden ze zelf de noodzakelijke representaties leren. Deze aanpak bracht echter zijn eigen uitdagingen met zich mee die niet konden worden opgelost door simpelweg meer lagen op elkaar te stapelen of grotere netwerken te creëren, zoals het generaliseren naar nieuwe gegevens, het voortdurend leren van nieuwe taken en het vermijden van suboptimale oplossingen tijdens de training.

Inspanningen om deze uitdagingen te overwinnen hebben geleid tot de innovaties die daartoe hebben geleid Transformatorende basis van de hedendaagse grote taalmodellen (LLM’s). Deze modellen hebben “een paradigmaverschuiving ingeluid van taakspecifieke modellen naar systemen voor meer algemene doeleinden met verschillende opkomende mogelijkheden als resultaat van het opschalen van de ‘juiste’ architecturen”, schrijven de onderzoekers. Toch blijft er een fundamentele beperking bestaan: LLM’s zijn na de training grotendeels statisch en kunnen hun kernkennis niet bijwerken of nieuwe vaardigheden verwerven door nieuwe interacties.

Het enige aanpasbare onderdeel van een LLM is het contextueel leren vermogen, waardoor het taken kan uitvoeren op basis van de informatie die onmiddellijk wordt verstrekt. Dit maakt huidige LLM’s analoog aan een persoon die geen nieuwe langetermijnherinneringen kan vormen. Hun kennis is beperkt tot wat ze tijdens de pre-training hebben geleerd (het verre verleden) en wat zich in hun huidige contextvenster bevindt (het onmiddellijke heden). Zodra een gesprek het contextvenster overschrijdt, gaat die informatie voor altijd verloren.

Het probleem is dat de huidige op transformatoren gebaseerde LLM’s geen mechanisme hebben voor ‘online’ consolidatie. Informatie in het contextvenster werkt nooit de langetermijnparameters van het model bij: de gewichten die zijn opgeslagen in de feed-forward-lagen. Als gevolg hiervan kan het model niet permanent nieuwe kennis of vaardigheden verwerven uit interacties; alles wat het leert verdwijnt zodra het contextvenster omrolt.

Een geneste benadering van leren

Nested Learning (NL) is ontworpen om computermodellen in staat te stellen te leren van gegevens met behulp van verschillende abstractieniveaus en tijdschalen, net zoals de hersenen. Het behandelt een enkel machine learning-model niet als één continu proces, maar als een systeem van onderling verbonden leerproblemen die tegelijkertijd en met verschillende snelheden worden geoptimaliseerd. Dit wijkt af van de klassieke visie, waarin de architectuur van een model en het optimalisatie-algoritme als twee afzonderlijke componenten worden behandeld.

Volgens dit paradigma wordt het trainingsproces gezien als het ontwikkelen van een ‘associatief geheugen’, het vermogen om gerelateerde stukjes informatie met elkaar te verbinden en terug te roepen. Het model leert een datapunt aan de lokale fout toe te wijzen, wat meet hoe “verrassend” dat datapunt was. Zelfs belangrijke architecturale componenten zoals het aandachtsmechanisme in transformatoren kunnen worden gezien als eenvoudige associatieve geheugenmodules die toewijzingen tussen tokens leren. Door voor elke component een updatefrequentie te definiëren, kunnen deze geneste optimalisatieproblemen worden ingedeeld in verschillende ‘niveaus’, die de kern vormen van het NL-paradigma.

Hoop op voortdurend leren

De onderzoekers brachten deze principes in de praktijk met Hope, een architectuur die is ontworpen om Nested Learning te belichamen. Hope is een aangepaste versie van Titaneneen andere architectuur die Google in januari introduceerde om de geheugenbeperkingen van het transformatormodel aan te pakken. Hoewel Titans een krachtig geheugensysteem hadden, werden de parameters ervan slechts op twee verschillende snelheden bijgewerkt: een langetermijngeheugenmodule en een kortetermijngeheugenmechanisme.

Hope is een zelfmodificerende architectuur, aangevuld met een “Continuum Memory System” (CMS) dat grenzeloze niveaus van in-context leren mogelijk maakt en kan worden geschaald naar grotere contextvensters. Het CMS fungeert als een reeks geheugenbanken, die elk op een andere frequentie worden bijgewerkt. Banken die sneller updaten, verwerken onmiddellijke informatie, terwijl langzamere banken meer abstracte kennis over langere perioden consolideren. Hierdoor kan het model zijn eigen geheugen optimaliseren in een zelfreferentiële lus, waardoor een architectuur ontstaat met theoretisch oneindige leerniveaus.

Bij een diverse reeks taalmodellerings- en gezond verstand-redeneringstaken demonstreerde Hope een lagere perplexiteit (een maatstaf voor hoe goed een model het volgende woord in een reeks voorspelt en de samenhang behoudt in de tekst die het genereert) en een hogere nauwkeurigheid vergeleken met zowel standaardtransformatoren als andere moderne terugkerende modellen. Hope presteerde ook beter bij ‘naald-in-hooiberg’-taken met een lange context, waarbij een model een specifiek stukje informatie moet vinden en gebruiken dat verborgen is in een grote hoeveelheid tekst. Dit suggereert dat het CMS een efficiëntere manier biedt om lange informatiereeksen te verwerken.

Dit is een van de vele pogingen om AI-systemen te creëren die informatie op verschillende niveaus verwerken. Hiërarchisch redeneermodel (HRM) van Sapient Intelligence, gebruikte een hiërarchische architectuur om het model efficiënter te maken bij het leren van redeneertaken. Klein redeneermodel (TRM), een model van Samsung, verbetert HRM door architectonische veranderingen aan te brengen, waardoor de prestaties worden verbeterd en tegelijkertijd efficiënter wordt gemaakt.

Hoewel veelbelovend, wordt Nested Learning geconfronteerd met enkele van dezelfde uitdagingen als deze andere paradigma’s bij het realiseren van het volledige potentieel ervan. De huidige AI-hardware- en softwarestacks zijn sterk geoptimaliseerd voor klassieke deep learning-architecturen en Transformer-modellen in het bijzonder. Het op grote schaal adopteren van Nested Learning kan fundamentele veranderingen vereisen. Als het echter aan kracht wint, kan het leiden tot veel efficiëntere LLM’s die voortdurend kunnen leren, een capaciteit die cruciaal is voor zakelijke toepassingen in de echte wereld, waar omgevingen, gegevens en gebruikersbehoeften voortdurend in beweging zijn.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in