De standaardrichtlijnen voor het bouwen van grote taalmodellen (LLM’s) optimaliseren alleen de trainingskosten en negeren de gevolgtrekkingskosten. Dit vormt een uitdaging voor toepassingen in de echte wereld die gebruik maken van inferentie-tijd-schalingstechnieken om de nauwkeurigheid van modelreacties te vergroten, zoals het trekken van meerdere redeneringsvoorbeelden uit een model tijdens de implementatie.
Om deze kloof te overbruggen hebben onderzoekers van de Universiteit van Wisconsin-Madison en Stanford University geïntroduceerd Trein-naar-test (T2) Schalingswetten, een raamwerk dat gezamenlijk de parametergrootte van een model, het trainingsgegevensvolume en het aantal inferentiemonsters tijdens de test optimaliseert.
In de praktijk bewijst hun aanpak dat het computeroptimaal is om aanzienlijk kleinere modellen te trainen op veel meer gegevens dan de traditionele regels voorschrijven, en vervolgens de bespaarde rekenoverhead te gebruiken om meerdere herhaalde steekproeven bij gevolgtrekking te genereren.
Voor ontwikkelaars van zakelijke AI-applicaties die hun eigen modellen trainen, biedt dit onderzoek een bewezen blauwdruk voor het maximaliseren van het rendement op investeringen. Het laat zien dat AI-redeneringen niet noodzakelijkerwijs vereisen dat er enorme bedragen aan grensmodellen worden uitgegeven. In plaats daarvan kunnen kleinere modellen betere prestaties leveren bij complexe taken, terwijl de inferentiekosten per query beheersbaar blijven binnen de implementatiebudgetten in de echte wereld.
Conflicterende schaalwetten
Schaalwetten zijn een belangrijk onderdeel van de ontwikkeling van grote taalmodellen. Schaalwetten vóór training bepalen de beste manier om rekenkracht toe te wijzen tijdens het maken van het model wetten voor het schalen van testtijd begeleiden hoe u rekenkracht kunt toewijzen tijdens de implementatie, zoals het model ‘langer laten nadenken’ of meerdere redeneringsvoorbeelden genereren om complexe problemen op te lossen.
Het probleem is dat deze schaalwetten volledig onafhankelijk van elkaar zijn ontwikkeld, ondanks dat ze fundamenteel met elkaar verweven zijn.
De parametergrootte en de trainingsduur van een model bepalen rechtstreeks zowel de kwaliteit als de kosten per query van de gevolgtrekkingsvoorbeelden. Momenteel is de gouden standaard voor vooropleiding in de sector de Chinchilla-regelwat een rekenoptimale verhouding suggereert van ongeveer 20 trainingstokens voor elke modelparameter.
Makers van moderne AI-modelfamilies, zoals Llama, Gemma en Qwen, overtreden deze regel echter regelmatig door hun kleinere modellen opzettelijk te overtrainen op enorme hoeveelheden gegevens.
Zoals Nicholas Roberts, co-auteur van het artikel, aan VentureBeat vertelde, hapert de traditionele aanpak bij het bouwen van complexe agentische workflows: “Naar mijn mening valt de inferentiestapel uiteen wanneer elke individuele inferentieoproep duur is. Dit is het geval wanneer de modellen groot zijn en je veel herhaalde steekproeven moet doen.” In plaats van te vertrouwen op enorme modellen, kunnen ontwikkelaars overtrainde compacte modellen gebruiken om deze herhaalde bemonstering uit te voeren tegen een fractie van de kosten.
Maar omdat de wetten voor training en testtijdschaling afzonderlijk worden onderzocht, bestaat er geen rigoureus raamwerk om te berekenen in hoeverre een model overtraind moet worden op basis van het aantal redeneervoorbeelden dat het tijdens de implementatie moet genereren.
Bijgevolg bestond er voorheen geen formule die de modelomvang, het trainingsdatavolume en de budgetten voor testtijdinferentie gezamenlijk optimaliseerde.
De reden dat dit raamwerk moeilijk te formuleren is, is dat voortraining en testtijdschaling twee verschillende wiskundige talen spreken. Tijdens de voortraining worden de prestaties van een model gemeten met behulp van ‘verlies’, een vloeiende, continue metriek die voorspellingsfouten bijhoudt terwijl het model leert.
Tijdens de testfase gebruiken ontwikkelaars real-world, downstream-metrieken om de redeneermogelijkheden van een model te evalueren, zoals pass@k, dat de waarschijnlijkheid meet dat een model ten minste één correct antwoord zal opleveren bij k onafhankelijke, herhaalde pogingen.
Schaalwetten voor het trainen naar testen
Om de kloof tussen training en implementatie op te lossen, introduceren de onderzoekers Train-to-Test (T2) schaalwetten. Op een hoog niveau voorspelt dit raamwerk de redeneerprestaties van een model door drie variabelen als één enkele vergelijking te behandelen: de grootte van het model (N), het volume aan trainingstokens waarvan het leert (D), en het aantal redeneervoorbeelden dat het genereert tijdens gevolgtrekking (k).
T2 combineert pretraining- en inferentiebudgetten in één optimalisatieformule die rekening houdt met zowel de basislijnkosten voor het trainen van het model (6ND) als de samengestelde kosten om het herhaaldelijk te bevragen bij inferentie (2Nk). De onderzoekers probeerden verschillende modelleringsbenaderingen: of het verlies vóór de training of de prestatie tijdens de test (pass@k) moesten worden gemodelleerd als functies van N, D en k.
De eerste benadering neemt de bekende wiskundige vergelijking die wordt gebruikt voor Chinchilla-schaling (die de voorspellingsfout of het verlies van een model berekent) en wijzigt deze direct door een nieuwe variabele toe te voegen die rekening houdt met het aantal herhaalde testtijdmonsters (k). Hierdoor kunnen ontwikkelaars zien hoe toenemende gevolgtrekkingen het algehele foutenpercentage van het model verlagen.
De tweede benadering modelleert rechtstreeks de stroomafwaartse pass@k-nauwkeurigheid. Het vertelt ontwikkelaars de waarschijnlijkheid dat hun applicatie een probleem zal oplossen, gegeven een specifiek computerbudget.
Maar moeten bedrijven dit raamwerk voor elke toepassing gebruiken? Roberts verduidelijkt dat deze aanpak zeer gespecialiseerd is. “Ik kan me voorstellen dat je niet zoveel voordeel zou zien voor kennisintensieve toepassingen, zoals chatmodellen”, zei hij. In plaats daarvan: “T2 is afgestemd op toepassingen waarbij veel redenering nodig is, zoals coderen, waarbij u normaal gesproken herhaalde steekproeven zou gebruiken als methode voor het opschalen van de testtijd.”
Wat het betekent voor ontwikkelaars
Om de T te valideren2 schaalwetten bouwden de onderzoekers een uitgebreid testbed van meer dan 100 taalmodellen, variërend van 5 miljoen tot 901 miljoen parameters. Ze trainden 21 nieuwe, zwaar overtrainde controleposten helemaal opnieuw om te testen of hun wiskundige voorspellingen stand hielden in de werkelijkheid. Vervolgens hebben ze de modellen vergeleken met acht verschillende taken, waaronder datasets uit de echte wereld zoals SciQ en OpenBookQA, naast synthetische taken die zijn ontworpen om rekenkunde, ruimtelijk redeneren en het herinneren van kennis te testen.
Hun beide wiskundige modellen bewezen dat de rekenoptimale grens drastisch verschuift van de standaard Chinchilla-schaling. Om de prestaties onder een vast budget te maximaliseren, is de optimale keuze een model dat aanzienlijk kleiner is en is getraind op veel meer gegevens dan de traditionele regel van 20 tokens per parameter voorschrijft.
In hun experimenten presteerden de sterk overtrainde kleine modellen consistent beter dan de grotere, Chinchilla-optimale modellen bij alle acht evaluatietaken, wanneer rekening werd gehouden met de kosten van de testtijd.
Voor ontwikkelaars die deze bevindingen willen inzetten, is de technische barrière verrassend laag.
“Er is niets bijzonders nodig om testtijdschaling uit te voeren met onze huidige modellen”, zei Roberts. “Bij de implementatie kunnen ontwikkelaars absoluut infrastructuur integreren die het samplingproces efficiënter maakt (bijvoorbeeld KV-caching als je een transformator gebruikt).”
KV-caching helpt door eerder verwerkte context op te slaan, zodat het model de initiële prompt niet voor elk nieuw redeneervoorbeeld opnieuw hoeft te lezen.
Extreme overtraining brengt echter praktische nadelen met zich mee. Hoewel overtrainde modellen notoir koppig en moeilijker te verfijnen kunnen zijn, merkt Roberts op dat wanneer ze onder toezicht verfijnde afstemming toepasten, “terwijl dit effect aanwezig was, het effect niet sterk genoeg was om het optimale model terug te brengen naar Chinchilla.” De computeroptimale strategie blijft definitief neigen naar compacte modellen.
Toch moeten teams die dit tot het uiterste drijven op hun hoede zijn voor het bereiken van fysieke datalimieten. “Een andere invalshoek is dat als je onze aanbevelingen voor overtraining tot het uiterste doorvoert, je misschien wel zonder trainingsgegevens komt te zitten”, zei Roberts, verwijzend naar de dreigende “datamuur” waar hoogwaardige internetgegevens uitgeput raken.
Deze experimenten bevestigen dat als een applicatie afhankelijk is van het genereren van meerdere test-time redeneervoorbeelden, het agressief overtrainen van een compact model praktisch en wiskundig gezien de meest effectieve manier is om een end-to-end computerbudget te besteden.
Om ontwikkelaars op weg te helpen, is het onderzoeksteam van plan hun checkpoints en code binnenkort open source te maken, zodat bedrijven hun eigen gegevens kunnen inpluggen en het schaalgedrag onmiddellijk kunnen testen. Uiteindelijk dient dit raamwerk als een gelijkmakende kracht in de AI-industrie.
Dit is vooral van cruciaal belang omdat de hoge prijs van grensmodellen een barrière kan vormen bij het opschalen van agentische toepassingen die afhankelijk zijn van redeneermodellen.
“T2 Er verandert fundamenteel wie sterke redeneermodellen mag bouwen”, besluit Roberts. “Je hebt misschien geen enorme computerbudgetten nodig om state-of-the-art redeneringen te krijgen. In plaats daarvan heb je goede data nodig en een slimme toewijzing van je budget voor training en inferentie.”



