Home Nieuws Onderzoekers hebben 3x snellere gevolgtrekkingen rechtstreeks in LLM-gewichten verwerkt – zonder speculatieve...

Onderzoekers hebben 3x snellere gevolgtrekkingen rechtstreeks in LLM-gewichten verwerkt – zonder speculatieve decodering

3
0
Onderzoekers hebben 3x snellere gevolgtrekkingen rechtstreeks in LLM-gewichten verwerkt – zonder speculatieve decodering

Terwijl agentische AI-workflows de kosten en latentie van lange redeneerketens vermenigvuldigen, heeft een team van de Universiteit van Maryland, Lawrence Livermore National Labs, Columbia University en TogetherAI een manier gevonden om de doorvoerwinst drie keer zo hoog te maken rechtstreeks in de gewichten van een model.

In tegenstelling tot speculatieve decodering, waarvoor een afzonderlijk tekenmodel vereist is, vereist deze aanpak geen extra infrastructuur; slechts een enkel speciaal token dat wordt toegevoegd aan de bestaande architectuur van het model.

De grenzen van de voorspelling van het volgende token

Voorspelling van de volgende token – het genereren van één token per voorwaartse passage – creëert een doorvoerplafond dat pijnlijk duur wordt wanneer modellen duizenden tokens moeten produceren. Dit knelpunt is vooral problematisch bij redeneermodellen, die vaak duizenden ‘keten van gedachten”-tokens voordat het definitieve antwoord wordt geproduceerd, wat leidt tot een trage en dure gebruikerservaring.

Multi-token voorspelling (MTP) biedt een alternatief trainingsparadigma waarmee een taalmodel meerdere tokens tegelijk kan produceren in één enkele voorwaartse doorgang. Het model kan bijvoorbeeld worden getraind om een ​​blok tokens in één keer te voorspellen in plaats van alleen het onmiddellijk volgende token.

John Kirchenbauer, promovendus in computerwetenschappen aan de Universiteit van Maryland en co-auteur van het artikel, vertelde VentureBeat dat naarmate we richting agentische workflows evolueren, de focus verschuift van algemene doorvoer naar snelheid voor één gebruiker. “Tegenwoordig, nu ultra-lange denksporen de norm zijn en agentische buitenste lussen deze kosten nog verder vermenigvuldigen, wordt latentie een even belangrijke dimensie van de algehele service-efficiëntie als bruto tokens per seconde per hardware-eenheid (tps/GPU)”, aldus Kirchenbauer. Hij zei dat hoewel de standaard batch-voorspelling van de volgende token al optimaal is voor de algehele doorvoer, de nieuwe aanpak “ernaar streeft de GPU te verzadigen met slechts de zoekopdracht van een enkele gebruiker om de latentie voor die ene gebruiker te verminderen.”

Er bestaan ​​andere methoden, maar deze hebben nadelen. “Het is de moeite waard om op te merken dat speculatieve decodering en diffusie-LLM’s als een op efficiëntie gericht alternatief voor next token forecast (NTP) beide op latentie gerichte versnellingstechnieken zijn”, aldus Kirchenbauer. Maar speculatieve decodering vereist het inzetten en beheren van een aanvullend ’tekenmodel’, dat meer absolute rekenkracht besteedt aan het opstellen en verifiëren. MTP daarentegen “maakt gebruik van een soortgelijk soort afweging, het is gewoon eenvoudiger te bedienen en op zichzelf wetenschappelijk interessant.”

De huidige MTP-paradigma’s hebben echter beperkingen. Het standaarddoel voor het trainen van een taalmodel voor MTP is het vergelijken van de voorspellingen met grondwaarheidstekst uit een dataset. De valkuil is dat deze standaardtraining het model leert om zelfstandig de waarschijnlijkheid van een token op een specifieke positie te voorspellen, in plaats van zich druk te maken over de gezamenlijke relatie tussen een reeks tokens.

Als een model meerdere tokens tegelijk probeert te voorspellen met behulp van deze standaardmethode, doen zich twee grote problemen voor. De eerste is grammaticale mismatch. Als een model bijvoorbeeld twee woorden voorspelt die volgen op het voorvoegsel ‘De dierenverzorger heeft de dieren gevoed’, kan het onafhankelijk van elkaar monsters nemen en een niet-overeenkomende zin produceren, zoals ‘pandavlees’ of ‘leeuwenbamboe’ in plaats van ‘pandabamboe’ en ‘leeuwenvlees’.

Het tweede probleem is gedegenereerde herhaling. Omdat typische tekst onvoorspelbaar is, zal een model dat probeert een token 100 posities in de toekomst te voorspellen op basis van een standaard dataset alleen maar ‘de’ voorspellen, aangezien dit het meest voorkomende woord in het Engels is. Dit resulteert erin dat het model onzin als “…de de de…” voor posities in de verre toekomst weergeeft.

Voorspelling van meerdere tokens via zelfdistillatie

Om de problemen bij het genereren van meerdere tokens op te lossen, stellen de onderzoekers een nieuwe trainingstechniek voor die gebruik maakt van een leerling-leraarschema. Een studentenmodel, het model dat meerdere tokens leert voorspellen, genereert een deterministisch multi-tokenblok. Een lerarenmodel, dat fungeert als een sterk standaard next-token-voorspellingstaalmodel, evalueert dat blok. De leraar treedt op als criticus en berekent hoe waarschijnlijk en coherent de door de leerling voorgestelde volgorde is. Als de leerling een niet-overeenkomende uitdrukking voorstelt, zoals ‘leeuwbamboe’, kent de leraar daar een hoog verlies aan toe, en leert de leerling die constructie te vermijden.

Afbeelding tegoed: VentureBeat met Nano Banana Pro

Het paradigma is geïnspireerd door leren ter versterking van het beleid, omdat het studentenmodel niet simpelweg statische tekst uit het hoofd leert. Het genereert een volledige uitrol (opeenvolging van acties in RL-taalgebruik) onmiddellijk parallel op een enkele voorwaartse pass en ontvangt een beloning op basis van hoe goed de leraar denkt dat het is. In tegenstelling tot statische gecontroleerde methoden waarbij trainingsparen vooraf worden vastgelegd, is de feedback hier dynamisch en in realtime gegenereerd op basis van de eigen resultaten van de student. De sterke leraar verifieert ook de samenhang van de tokens, wat verhindert dat het leerlingmodel gedegenereerde resultaten zoals herhaalde woorden leert.

Voor ontwikkelaars ligt de schoonheid van deze aanpak in de eenvoud ervan. “Er zijn werkelijk geen wijzigingen aan de architectuur behalve de toevoeging van een speciaal token”, zei Kirchenbauer. Door een ongebruikt slot in de bestaande inbeddingsmatrix van een model te coöpteren om als een mask token zet de techniek opeenvolgende bewerkingen om in parallelle bewerkingen. “Elk standaard next-token-voorspellingstaalmodel kan op deze manier worden aangepast… de interne implementatie – MoE, windowed aandacht, SSM-lagen, enz. – blijft onaangeroerd en vormt geen belemmering voor aanpassing.”

Voor technische teams betekent dit dat de aanpassing kan worden toegepast op modellen die al in productie zijn, zonder dat de pijpleidingen opnieuw hoeven te worden aangelegd.

ConfAdapt

Afbeelding tegoed: VentureBeat met Nano Banana Pro

Het tegelijkertijd genereren van meerdere tokens kan nog steeds de nauwkeurigheid van het antwoord op het moment van inferentie negatief beïnvloeden. Om de generatiesnelheid te maximaliseren zonder de kwaliteit van de uitvoer op te offeren, introduceren de auteurs een adaptieve decoderingsstrategie genaamd ConfAdapt.

ConfAdapt evalueert bij elke stap een betrouwbaarheidsdrempel, zoals 90%. Het model genereert een blok tokens, maar bewaart alleen de tokens die aan deze betrouwbaarheidsdrempel voldoen of deze overschrijden. Wanneer de komende tekst zeer voorspelbaar of structureel is, is het vertrouwen van het model erg hoog. Het accepteert en voert een groot aantal tokens in één keer uit, waardoor er aanzienlijke rekentijd wordt bespaard op eenvoudige tokens. Vervolgens richt het zijn kostbare single-token-doorgiften op hardere tokens die meer rekeninspanning vereisen.

Multi-token voorspelling op de proef gesteld

Om te zien hoe het trainingsparadigma in de praktijk presteerde, pasten de onderzoekers hun methode toe op populaire, op instructie afgestemde modellen met open gewicht. Ze testten het sterke model Llama-3.1-8B-Magpie voor algemene doeleinden en de kleinere, efficiënte Qwen3-4B-Instruct-2507, die vaak wordt gekozen voor kostengevoelige bedrijfsimplementaties. Beide modellen zijn afgestemd op MetaMathQA, een dataset van synthetische wiskundeproblemen op de basisschool die sterk afhankelijk zijn van redeneersporen.

MTP met ConfAdapt

Voorbeeld van multi-token bocks gegenereerd met ConfAdapt (bron: arXiv)

De experimenten brachten een duidelijk evenwicht tussen snelheid en nauwkeurigheid aan het licht. Met behulp van de ConfAdapt-strategie behaalde het Llama-3.1-8B-model een versnelling van 3x met een daling van minder dan 3% in nauwkeurigheid op wiskundige benchmarks. Het Qwen3-4B-model behaalde dezelfde 3x versnelling met een iets grotere nauwkeurigheidsdaling van 7%. Agressievere instellingen konden een snelheid van 5x opleveren, hoewel ze hogere nauwkeurigheidsboetes met zich meebrachten.

Hoe dit zich vertaalt naar taken in de echte wereld, hangt af van de voorspelbaarheid. “Omdat de ConfAdapt-aanpak de versnelling op natuurlijke wijze afstemt op de inherente entropie in het domein, kan het model, wanneer het precies ‘weet’ wat er daarna komt, deze in één keer uitzenden”, merkte hij op, wat leidde tot een enorme versnelling van voorspelbare taken, terwijl er meer stappen werden gebruikt voor onzekere resultaten.

De versnellingen werden ook overgedragen naar domeinen die niet waren opgenomen in de multi-token voorspellingstrainingsfase. Dit omvatte taken binnen hetzelfde domein als de trainingsgegevens, zoals wiskunde en redeneren, maar ook taken met een open einde, zoals creatief schrijven en samenvatten.

Screenshot 20-02-2026 om 21.22.58 uur

De sweetspot van MTP met ConfAdapt is ongeveer 3x versnelling (bron: arXiv)

Ondanks dit transferleren mogen bedrijven die deze modellen inzetten voor gespecialiseerde taken er niet volledig op vertrouwen. “Onze aanbeveling zou zijn om het model voor MTP af te stemmen/aan te passen met behulp van monsters uit het speciale industriële domein”, aldus Kirchenbauer. “De beste prestaties worden waarschijnlijk bereikt als de MTP-aanpassing wordt uitgevoerd met behulp van aanwijzingen uit het implementatiedomein.”

Het dienen van compatibiliteit en de weg die voor ons ligt

Het onderzoeksteam heeft hun getrainde modellen op knuffelgezicht en zal binnenkort verschijnen de code voor hun MTP-framework. Infrastructuurteams die deze modellen integreren in vLLM of SGLang zullen rekening moeten houden met veranderingen in de manier waarop batching en KV-caching worden afgehandeld, maar dat is een eenmalige technische investering en geen voortdurende last. Kirchenbauer ziet echter “geen duidelijke barrières voor integratie” en bevestigde dat het team “met een aantal systeemexperts samenwerkt om de kortste weg naar integratie te identificeren.”

Het advies van Kirchenbauer voor teams die de vrijgegeven modellen willen testen: begin met speelgoedaanwijzingen zoals het tellen of herhalen van een zin om de winst van ConfAdapt in actie te zien, en pas het model vervolgens aan met voorbeelden uit uw specifieke implementatiedomein voor de beste resultaten. “Over het algemeen verwachten we dat een productieklare implementatie van onze aanpak de levenscyclus van het bouwen en implementeren van agentische modellen met lage latentie zou kunnen vereenvoudigen”, concludeerde Kirchenbauer. “Terwijl bestaande versnellingstechnieken voor NTP-modellen zich bijna uitsluitend richten op gevolgtrekkingen en logica, bakt onze aanpak slechts een deel van de complexiteit in het model zelf, waardoor het grotendeels complementair is aan bestaand werk.”

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in