Onderzoekers van Stanford, Nvidia en Together AI hebben een nieuwe techniek ontwikkeld die nieuwe oplossingen voor zeer complexe problemen kan ontdekken. Ze zijn er bijvoorbeeld in geslaagd een kritische GPU-kernel te optimaliseren zodat deze 2x sneller werkt dan de vorige state-of-the-art, geschreven door menselijke experts.
Hun techniek, genaamd “Testtijdtraining om te ontdekken” (TTT-Discover), daagt het huidige paradigma uit om modellen “langer te laten nadenken” over redeneerproblemen. TTT-Discover stelt het model in staat om door te gaan met trainen tijdens het inferentieproces en de gewichten voor het betreffende probleem bij te werken.
De grenzen van het ‘bevroren’ redeneren
De huidige AI-strategieën voor ondernemingen zijn vaak gebaseerd op ‘bevroren’ modellen. Of u nu een gesloten of open redeneermodel gebruikt, de parameters van het model zijn statisch. Wanneer u deze modellen vraagt, zoeken ze naar antwoorden binnen het vaste spruitstuk van hun trainingsgegevens. Dit werkt goed voor problemen die lijken op wat het model eerder heeft gezien.
Echte ontdekkingsproblemen, zoals het uitvinden van een nieuw algoritme of het bewijzen van een nieuwe wiskundige stelling, vallen echter per definitie buiten onze grenzen. Als de oplossing een sprong in de logica vereist die niet bestaat in de trainingsset, zal een bevroren model waarschijnlijk mislukken, ongeacht hoeveel rekenkracht je er tijdens de gevolgtrekking op gooit.
In commentaar op VentureBeat illustreerde Mert Yuksekgonul, co-auteur van het artikel en doctoraatsstudent aan Stanford, dit onderscheid aan de hand van een beroemde wiskundige doorbraak:
“Ik geloof dat denkmodellen bijvoorbeeld P != NP niet zouden kunnen bewijzen zonder testtijdtraining, net zoals Andrew Wiles de laatste stelling van Fermat niet zou kunnen bewijzen zonder de zeven jaar die hij besteedde aan het geïsoleerd onderzoeken van dit ene probleem en voortdurend leren van zijn eigen mislukkingen.”
TTT-Discover behandelt het testprobleem niet als een vraag die beantwoord moet worden, maar als een omgeving die beheerst moet worden. Terwijl het model het probleem probeert op te lossen, genereert het verschillende soorten gegevens: mislukkingen, gedeeltelijke successen en fouten. In plaats van deze gegevens weg te gooien, gebruikt TTT-Discover deze om de gewichten van het model in realtime bij te werken, waardoor het model zich effectief op die specifieke uitdaging kan concentreren, in plaats van een zeer algemeen raamwerk voor probleemoplossing te ontwikkelen.
Een andere benadering van versterkend leren
TTT-Discover biedt een fundamentele verandering in de manier waarop redeneermodellen worden getraind. Bij standaard training voor versterkend leren (RL) is het doel een generalistisch beleid dat gemiddeld goed presteert bij veel taken. Bij TTT-Discover is het doel om de beste oplossing te vinden voor een heel specifiek probleem, en het beleid is “een middel om dit doel te bereiken”, aldus de auteurs. Zodra het model het artefact (dat wil zeggen de geoptimaliseerde code, het bewijs of het molecuul) ontdekt, kan het neurale netwerk dat het produceerde, worden weggegooid.
Om dit te bereiken hebben de onderzoekers twee specifieke componenten ontworpen die TTT-Discover onderscheiden van standaard versterkend leren:
-
Entropische doelstelling: Standaard RL optimaliseert voor de gemiddelde verwachte beloning. Als een model een riskant pad bewandelt en faalt, wordt het model door standaard RL bestraft. TTT-Discover draait dit om. Het maakt gebruik van een ‘entropisch doel’ dat exponentieel de resultaten met hoge beloningen weegt. Dit dwingt het model om ‘veilige’, gemiddelde antwoorden te negeren en agressief op zoek te gaan naar ‘eureka’-uitschieters: oplossingen die een kleine kans hebben om gevonden te worden, maar een enorme beloning bieden.
-
PUCT-zoekopdracht: Het systeem introduceert PUCT, een boomzoekalgoritme geïnspireerd op AlfaZero. Het onderzoekt verschillende oplossingspaden en bouwt een dataset van pogingen op. Het model traint vervolgens in realtime op deze dataset en leert herkennen welke deelstappen tot resultaten met hoge beloningen leiden.
Cruciaal is dat deze methode het beste werkt bij problemen met een continu beloningssignaal. Het systeem heeft een manier nodig om de incrementele voortgang te meten, zoals ‘runtime in microseconden’ of ‘error rate’, in plaats van een binair ‘pass/fail’-signaal. Hierdoor kan het model de geleidelijke verbetering richting de optimale oplossing volgen.
De economie van ‘zware gevolgtrekking’
Voor bedrijven die gewend zijn om fracties van een cent per API-oproep te betalen, vereist het kostenprofiel van TTT-Discover een mentaliteitsverandering. In hun experimenten rapporteerden de onderzoekers dat een enkele ontdekkingsrun ongeveer 50 trainingsstappen en duizenden implementaties omvat, wat ongeveer $ 500 per probleem kost.
TTT-Discover zou voor “statische activa van hoge waarde” kunnen zijn, in tegenstelling tot triviale en terugkerende problemen die kunnen worden opgelost met bestaande modellen en benaderingen.
Stel je een cloud-native onderneming voor die een datapijplijn beheert die elke nacht petabytes aan informatie verwerkt. Als die pijplijn afhankelijk is van een specifieke SQL-query of GPU-kernel, kan het optimaliseren van die code met slechts 1% honderdduizenden dollars aan jaarlijkse computerkosten besparen. In deze context is het uitgeven van $500 om een kernel te vinden die 50% sneller is een triviale uitgave met een onmiddellijke ROI.
“Dit is het meest logisch voor beslissingen met een lage frequentie en een hoge impact, waarbij een enkele verbetering veel meer waard is dan de computerkosten”, aldus Yuksekgonul. “Supply chain routing, medicijnontwerp en materiaalontdekking komen in aanmerking. In deze omstandigheden kan het uitgeven van honderden dollars aan een enkele ontdekkingsstap zichzelf gemakkelijk terugbetalen.”
Overwegingen bij de implementatie
Een van de belangrijkste bevindingen voor de acceptatie door ondernemingen is dat TTT-Discover geen eigen grensmodel vereist. De onderzoekers bereikten state-of-the-art resultaten met behulp van gpt-oss-120bOpenAI’s open-gewichtsmodel. De onderzoekers hebben heeft de code vrijgegeven voor TTT-Discover zodat onderzoekers en ontwikkelaars het voor hun eigen modellen kunnen gebruiken.
Omdat de techniek met open modellen werkt, kunnen bedrijven deze ‘ontdekkingslus’ volledig binnen hun eigen beveiligde VPC’s of on-premise H100-clusters uitvoeren zonder hun bedrijfseigen gegevens naar servers van derden te sturen.
“Als een bedrijf al versterkend leren uitvoert, is er geen extra infrastructuur nodig”, zegt Yuksekgonul. “TTT-Discover gebruikt dezelfde trainingsstack (GPU’s, rolloutworkers, optimizers, checkpointing).”
Als ze RL nog niet gebruiken, zouden ze die infrastructuur moeten bouwen. Maar ondernemingen kunnen ook bestaande oplossingen gebruiken om de complexiteit van het proces te verminderen. De onderzoekers orkestreerden deze trainingsruns met behulp van de Tinker-API door Thinking Machines, een API die de complexiteit van gedistribueerde training en gevolgtrekking beheert.
“Tools zoals Tinker (en open varianten, bijvoorbeeld OpenTinker) verlagen de installatiekosten, en zowel de arbeids- als de computerkosten zullen in de loop van de tijd waarschijnlijk dalen”, zei hij.
Gebruiksscenario’s uit de echte wereld
De onderzoekers hebben TTT-Discover ingezet in vier verschillende technische domeinen: systeemtechniek, algoritmeontwerp, biologie en wiskunde. In bijna alle gevallen zorgde de methode voor een nieuwe state-of-the-art.
In één experiment optimaliseerde het model GPU-kernels voor matrixvermenigvuldiging (inclusief de “TriMul” -kernel die werd gebruikt in AlphaFold), waardoor uitvoeringssnelheden tot 2x sneller worden bereikt dan eerdere state-of-the-art en beter presteert dan de beste door mensen geschreven kernels op het scorebord.
In concurrerende programmeerscenario’s (BijCoder), loste het complexe heuristische problemen (bijvoorbeeld het optimaliseren van geometrische beperkingen voor visnetten) beter op dan menselijke topexperts en eerdere AI-basislijnen.
Voor ondernemingen hangt de overgang van deze academische benchmarks naar bedrijfswaarde af van één specifieke beperking: het bestaan van een verifieerbaar, scalair signaal. In tegenstelling tot een chatbot die tekst genereert, heeft TTT-Discover een harde maatstaf nodig (bijvoorbeeld runtime, foutenpercentage of winstmarge) om tegen te optimaliseren.
Yuksekgonul zei dat deze eis een duidelijke grens trekt tussen waar deze technologie wel en niet mag worden gebruikt. “Op dit moment is de belangrijkste vereiste een betrouwbaar scalair signaal van vooruitgang – kosten, fouten, moleculaire eigenschappen – waartegen het systeem kan optimaliseren”, zei hij.
Dit richt de adoptie van bedrijven op ‘harde’ technische en operationele uitdagingen zoals logistiek, supply chain en resource management, waarbij problemen zoals vlootroutering of bemanningsplanning vaak afhankelijk zijn van statische heuristieken. TTT-Discover kan deze als optimalisatieomgevingen behandelen en uren besteden aan het vinden van een routestructuur die 5% bespaart op de dagelijkse brandstofkosten.
De eis voor duidelijke verificaties sluit kwalitatieve taken uit, zoals het ‘schrijven van een betere marketingstrategie’, waarbij verificatie subjectief is en gevoelig voor ruis.
“Moeilijk te verifiëren problemen zijn nog steeds een open vraag”, zei Yuksekgonul.
Met de huidige technologie is de beste weg voorwaarts het ontwerpen van verificateurs, maar “het robuust en moeilijk te maken van deze verificateurs maken is een uitdaging, en we hebben nog geen goede oplossing”, voegde hij eraan toe.
Van gevolgtrekking naar uitvinding
De bredere implicatie is dat enterprise AI-stacks mogelijk moeten evolueren om dit soort leren per probleem te ondersteunen.
“Systemen die rond een bevroren model zijn gebouwd, zullen aanpassing per probleem (of per domein) moeten ondersteunen, en bedrijven zullen betere probleemspecificaties en interne feedbacksignalen nodig hebben om het leren tijdens de test effectief te maken”, aldus Yuksekgonul. “Als de training binnen een particuliere VPC plaatsvindt, kan de trainingslus ook worden geïntegreerd met een groter deel van de interne omgeving van het bedrijf, en niet alleen met een centrale laboratoriumpijplijn.”
Voor de onderneming ligt de waarde in het identificeren van ‘miljoenendollarproblemen’, optimalisatie-uitdagingen waarbij een verifieerbare maatstaf bestaat, maar de menselijke vooruitgang tot stilstand is gekomen. Dit zijn de kandidaten voor TTT-Discover. Door hogere latentie en kosten voor specifieke vragen te accepteren, kunnen bedrijven hun inferentie-computing omzetten in een geautomatiseerd R&D-laboratorium, waar oplossingen worden ontdekt die voorheen buiten bereik waren van zowel mensen als bevroren AI-modellen.


