Home Nieuws Met de nieuwe ‘Test-Time Training’-methode kan AI blijven leren zonder dat de...

Met de nieuwe ‘Test-Time Training’-methode kan AI blijven leren zonder dat de gevolgtrekkingskosten exploderen

5
0
Met de nieuwe ‘Test-Time Training’-methode kan AI blijven leren zonder dat de gevolgtrekkingskosten exploderen

Een nieuwe studie van onderzoekers van Stanford University en Nvidia stelt een manier voor waarop AI-modellen kunnen blijven leren na de implementatie – zonder de inferentiekosten te verhogen. Voor zakelijke agenten die lange documenten, tickets en logboeken moeten verwerken, is dit een poging om “lang geheugen” te krijgen zonder aandacht te besteden aan de kosten die toenemen met de lengte van de context.

De aanpak, genaamd “End-to-end testtijdtraining” (TTT-E2E), herformuleert taalmodellering als een continu leerprobleem: in plaats van feiten uit het hoofd te leren tijdens de pre-training, leren modellen hoe ze zich in realtime kunnen aanpassen terwijl ze nieuwe informatie verwerken.

Het resultaat is een Transformer die de lange-contextnauwkeurigheid van volledige-aandachtsmodellen kan evenaren en tegelijkertijd met bijna RNN-efficiëntie kan werken – een potentiële doorbraak voor bedrijfsworkloads waarbij de contextlengte in botsing komt met de kosten.

De afweging tussen nauwkeurigheid en efficiëntie

Voor ontwikkelaars die AI-systemen bouwen voor taken met lange documenten, brengt de keuze voor een modelarchitectuur vaak een pijnlijke afweging tussen nauwkeurigheid en efficiëntie met zich mee.

Aan de ene kant staan ​​Transformers met volledige zelfaandacht, momenteel de gouden standaard voor nauwkeurigheid. Ze zijn ontworpen om de sleutels en waarden van alle voorgaande tokens te scannen voor elk nieuw gegenereerd token, waardoor ze verliesvrij kunnen worden teruggehaald. Deze precisie brengt echter hoge kosten met zich mee: de rekenkosten per token nemen aanzienlijk toe met de lengte van de context.

Aan de andere kant zijn er lineaire tijdreeksmodellen, die de inferentiekosten constant houden, maar moeite hebben om informatie over zeer lange contexten vast te houden.

Andere benaderingen proberen het verschil op te splitsen – aandacht met een glijdend venster, hybride benaderingen die aandacht combineren met herhaling en andere efficiëntietrucs – maar ze hebben nog steeds de neiging om niet de volledige aandacht te besteden aan het modelleren van harde taal.

De onderzoekers wedden dat het ontbrekende ingrediënt compressie is: in plaats van te proberen elk token precies terug te halen, zouden modellen de zaken die belangrijk zijn in een compacte staat moeten destilleren.

Testtijdtraining

De kerninnovatie van het artikel is de toepassing van Test-Time Training (TTT) op taalmodellering. Dit transformeert het model van een statische database in een flexibele leerling.

Bij standaard AI-implementatie worden modellen getraind om verliezen te minimaliseren en vervolgens ingezet als bevroren artefacten. Als u probeert een statisch model te laten leren tijdens de implementatie, presteert het doorgaans slecht omdat het nooit is getraind om zichzelf efficiënt bij te werken.

De onderzoekers lossen dit op door over te stappen van standaard voortraining (het aanleren van de modelfeiten) naar meta-learning (het model leren hoe te leren). Het doel is om de “initialisatie” van het model te optimaliseren, zodat het nieuwe informatie snel kan absorberen wanneer het live gaat.

Testtijdtraining maakt gebruik van twee lussen om modellen voor “meta-leren” te optimaliseren (credit: VentureBeat met NotebookLM)

Het proces omvat het simuleren van leren op basis van inferentietijd tijdens de trainingsfase:

  • Binnenlus (leren): Tijdens de training behandelt het model tekst als een stroom en voert het kleine, tijdelijke updates uit terwijl het het volgende token voorspelt – en simuleert hoe het zich zou aanpassen bij gevolgtrekking.

  • Buitenste lus (leer het om te leren): Het systeem werkt vervolgens de initialisatie van het model bij, zodat de volgende ronde van streamingaanpassing sneller en nauwkeuriger wordt.

Hoewel het idee van een model dat tijdens de implementatie van gewicht verandert misschien riskant klinkt voor op betrouwbaarheid gerichte bedrijfsleiders, beweert co-auteur Yu Sun dat het wiskundig gezien veiliger is dan het lijkt.

“Je moet het model zien als een RNN met een enorme verborgen staat”, zegt Sun. Hij merkt op dat als een onderneming zich veilig voelt bij het inzetten van standaard Transformers of RNN’s, het stabiliteitsprofiel van TTT vergelijkbaar is.

Dual-memory-architectuur

Om TTT-E2E te implementeren, hebben de onderzoekers de standaard Transformer-architectuur aangepast om dit nieuwe leerparadigma te ondersteunen, waardoor een hiërarchie ontstond die goedkope kortetermijncontextverwerking scheidt van selectieve langetermijngeheugenupdates.

  1. THet model gebruikt Sliding Window Attention in plaats van volledige aandacht. Dit fungeert als het ‘werkgeheugen’ van het model en kijkt alleen terug naar een vast venster met recente tokens om onmiddellijke syntaxis en lokale verwijzingen te verwerken. Dit zorgt ervoor dat de kosten voor het verwerken van een nieuw token constant blijven en niet stijgen naarmate de context groter wordt.

  2. Het model maakt gebruik van ‘gerichte gewichtsupdates’. Terwijl standaardmodellen tijdens gebruik volledig bevroren gewichten hebben, wijst TTT-E2E specifieke secties (meerlaagse Perceptron-lagen in de laatste 25% van de modelblokken) aan als veranderlijk.

  3. De architectuur maakt gebruik van een ‘dual-track storage’ om te voorkomen dat het model vergeet zijn algemene training tijdens het leren van een nieuw document. Elk bijwerkbaar blok bevat twee MLP-componenten: een statische laag die algemene vooraf getrainde kennis bevat, en een dynamische laag die in realtime wordt bijgewerkt om de context van het huidige document op te slaan.

TTT-E2E-architectuur

TTT-E2E-architectuur (bron: arXiv)

De innovatie ligt in de manier waarop het model omgaat met informatie die uit het schuifvenster valt. Bij een standaard schuifraammodel wordt een token, zodra het uit het zicht verdwijnt, vergeten. TTT-E2E voorkomt dit via compressie. Terwijl het venster beweegt, gebruikt het model next-token-voorspelling om de passerende informatie rechtstreeks in de gewichten van de dynamische MLP-lagen te “comprimeren”. Hierdoor worden de essentie en de feiten van de eerdere delen van het document geconsolideerd in de structuur van het model en dient het als langetermijngeheugen.

TTT-E2E in actie

Het belangrijkste resultaat: TTT-E2E blijft verbeteren naarmate de contextlengte toeneemt – passend bij of beter presterend dan volledige aandacht – terwijl de efficiënte basislijnen na ~32.000 tokens plat worden.

Om hun aanpak te valideren, trainden de onderzoekers modellen variërend van 125 miljoen tot 3 miljard parameters. Ze gebruikten een trainingsproces in twee fasen: pre-training op contexten van 8.000 tokens en afstemming op contexten van 128.000 tokens. Deze modellen zijn getoetst aan robuuste baselines, waaronder Transformers met volledige aandacht, Transformers met Sliding Window Attention (SWA), hybride modellen (Mamba 2 en Gated DeltaNet) en TTT-KVB (een eerdere vorm van testtraining).

De resultaten benadrukken een significante doorbraak in schaalvergroting. Het meest kritische experiment testte de prestaties toen het invoerdocument groeide van 8.000 naar 128.000 tokens. De Full Attention Transformer, de gouden standaard, bleef zijn prestaties verbeteren (lager verlies) naarmate de context groeide. Efficiënte basislijnen zoals Mamba 2, Gated DeltaNet en SWA bereiken daarentegen een plafond, waarbij hun prestaties na 32.000 tokens afnemen of afvlakken.

De nieuwe TTT-E2E-methode is met succes geschaald met de contextlengte, waardoor het gedrag van Volledige aandacht wordt nagebootst. In de experimenten met 3B-parametermodellen handhaafde TTT-E2E feitelijk een lagere verbijstering (betere prestatie) dan Volledige aandacht gedurende het hele contextvenster.

TTT-E2E-prestaties

TTT-E2E komt bijna overeen met de nauwkeurigheid van Transformers met volledige aandacht en evenaart de efficiëntie van op RNN gebaseerde modellen (arXiv)

Cruciaal is dat deze prestatie niet ten koste ging van de snelheid. Wat de inferentielatentie betreft, kwam TTT-E2E overeen met de efficiëntie van RNN’s. Bij een contextlengte van 128.000 tokens was TTT-E2E 2,7x sneller dan de Full-Attention Transformer op Nvidia H100-hardware.

Cruciaal voor adoptie is dat Sun opmerkt dat TTT-modellen tegenwoordig kunnen worden ingezet voor gevolgtrekking op de standaard Transformer-infrastructuur om deze versnellingen te bereiken. Hij waarschuwt echter dat de trainingskant van de vergelijking (met name de buitenste lus) momenteel complexer en langzamer is dan standaardmethoden, wat een hindernis vormt die nog steeds technische optimalisatie behoeft.

De voordelen worden zelfs nog drastischer naarmate de gegevens groter worden. Sun stelt dat het voordeel verder zou moeten toenemen in de context van miljoenen tokens, hoewel deze cijfers eerder projecties zijn dan de huidige benchmark-implementaties.

De aanpak kent echter specifieke beperkingen die geworteld zijn in de ontwerpfilosofie. De onderzoekers voerden een ‘naald in een hooiberg’-test uit, waarbij het model een specifiek, geïsoleerd stukje informatie (zoals een toegangscode) moet ophalen, verborgen in een groot tekstblok. In deze evaluatie presteerde Volledige Aandacht dramatisch beter dan alle andere methoden, inclusief TTT-E2E.

Dit komt omdat Volledige aandacht afhankelijk is van een cache die het vrijwel verliesvrij oproepen van specifieke details mogelijk maakt, terwijl TTT-E2E afhankelijk is van compressie. Compressie legt de intuïtie en kerninformatie perfect vast, maar kan specifieke, willekeurige details verliezen die niet passen in de aangeleerde patronen.

Dit onderscheid heeft grote gevolgen voor bedrijfsdatapijplijnen, met name RAG. Sun suggereert dat TTT RAG niet overbodig zal maken, maar het opnieuw zal definiëren. Hij vergelijkt TTT met ‘het bijwerken van het menselijk brein’ met algemene kennis, terwijl RAG een noodzakelijk instrument voor precisie zal blijven, ‘vergelijkbaar met hoe mensen nog steeds dingen in een notitieblok moeten opschrijven.’ Voor bedrijfsteams is de conclusie dat TTT het aantal keren dat u gegevens moet ophalen vermindert, maar de behoefte aan exact extern geheugen niet elimineert.

Hoewel de techniek werd gedemonstreerd op de Transformer-architectuur, merken de onderzoekers op dat “TTT in principe kan worden toegepast op elke basisarchitectuur” die een scheiding van langetermijn- en kortetermijngeheugencomponenten mogelijk maakt.

“Wij geloven dat deze twee soorten geheugen elkaar zullen blijven aanvullen”, concludeerden de onderzoekers.

Vooruitkijkend voorspelt Sun een paradigmaverschuiving waarbij de primaire vorm van AI-geheugen sterk gecomprimeerd zal zijn in plaats van exact. Hoewel modellen een ‘redelijk’ perfect-recall-venster van ongeveer 128.000 tokens zullen behouden, gelooft hij dat TTT-architecturen uiteindelijk een ‘gecomprimeerd geheugen van miljarden tokens’ zullen ontgrendelen. het veranderen van de manier waarop bedrijfsagenten herinnering, kosten en contextlengte balanceren.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in