Home Nieuws Nvidia’s Nemotron-Cascade 2 wint gouden medailles voor wiskunde en coderen met 3B...

Nvidia’s Nemotron-Cascade 2 wint gouden medailles voor wiskunde en coderen met 3B actieve parameters – en het post-trainingsrecept is nu open-source

4
0
Nvidia’s Nemotron-Cascade 2 wint gouden medailles voor wiskunde en coderen met 3B actieve parameters – en het post-trainingsrecept is nu open-source

De heersende veronderstelling bij de ontwikkeling van AI was eenvoudig: grotere modellen die op meer gegevens zijn getraind, leveren betere resultaten op. De nieuwste release van Nvidia daagt deze omvangaanname direct uit – en het trainingsrecept erachter kan voor zakelijke AI-teams belangrijker zijn dan het model zelf. De Cascade RL post-training pijplijn van het open-gewicht model, gedetailleerd in het technische rapport van Nvidiabiedt een reproduceerbare blauwdruk voor bedrijfsteams die domeinspecifieke redeneersystemen bouwen zonder helemaal opnieuw te hoeven trainen.

Nemotron-Cascade 2 is een open-weight 30B Mixture-of-Experts (MoE)-model dat tijdens de inferentietijd alleen 3B-parameters activeert. Ondanks deze compacte footprint behaalde het prestatieniveau op gouden medailleniveau op drie van ’s werelds meest veeleisende competities: de Internationale Wiskunde Olympiade (IMO) van 2025, de Internationale Olympiade in Informatica (IOI) en de ICPC Wereldfinale. Het is het tweede open model dat dit niveau bereikt, na DeepSeek-V3.2-Speciale – een model met 20 keer meer parameters.

Waarom post-training het echte concurrentievoordeel wordt

Het helemaal opnieuw trainen van een groot taalmodel is enorm duur – in de orde van tientallen tot mogelijk honderden miljoenen dollars voor grensmodellen. Nemotron-Cascade 2 vertrekt van hetzelfde basismodel als Nvidia’s bestaande Nemotron-3-Nano – maar presteert beter dan dat model op bijna elke benchmark, en in veel gevallen beter dan Nvidia’s eigen Nemotron-3-Super, een model met vier keer zoveel actieve parameters, volgens het technische rapport van Nvidia. Het verschil zit hem volledig in het recept na de training.

Dit is het strategische inzicht voor ondernemingsteams: je hebt niet per se een groter of duurder basismodel nodig. Mogelijk hebt u een betere trainingspijplijn nodig, bovenop de pijplijn die u al heeft. Cascade RL en MOPD vertegenwoordigen een specifieke, reproduceerbare benadering van dat probleem.

Cascade RL legde uit: sequentiële domeintraining die catastrofaal vergeten vermijdt

Versterkend leren (RL) is de dominante techniek geworden om LLM’s te leren redeneren. De uitdaging is dat het tegelijkertijd trainen van een model op meerdere domeinen – wiskunde, code, het volgen van instructies, agentische taken – vaak interferentie veroorzaakt. Het verbeteren van de prestaties in het ene domein verslechtert deze in een ander domein. Dit is het probleem van catastrofaal vergeten, een al lang gedocumenteerde uitdaging bij multi-task machine learning.

Cascade RL pakt dit aan door RL-fasen opeenvolgend te trainen, domein voor domein, in plaats van alles door elkaar te mixen. Nemotron-Cascade 2 volgt een specifieke volgorde: eerst instructie-volgende RL, dan multi-domein RL (met betrekking tot STEM-vragen, tool-aanroepen en gestructureerde output), dan on-policy destillatie, dan RLHF voor afstemming van menselijke voorkeuren, dan lange-context RL, dan code RL, en ten slotte software-engineering RL.

Drie eigenschappen maken deze aanpak praktisch, volgens het technische rapport van Nvidia. Ten eerste blijken domeinspecifieke RL-fasen resistent te zijn tegen catastrofaal vergeten: training in code verslechtert zelden de rekenprestaties, en verbetert deze in sommige gevallen zelfs. Ten tweede kunnen hyperparameters en het trainingscurriculum worden afgestemd op de specifieke kenmerken van dat domein, omdat in elke fase op een enkel domein wordt getraind, waardoor in het algemeen beter leren mogelijk wordt. Ten derde is het computergebruik substantieel efficiënter dan training in gemengde domeinen, omdat reacties binnen één domein doorgaans vergelijkbaar zijn qua lengte en verificatiekosten.

De bestelling zelf staat niet vast; het hangt af van het gedrag van het model. Het Nemotron-Cascade 2-team ontdekte dat het volgen van instructies op de eerste plaats moet komen (omdat dit in strijd kan zijn met de afstemming van menselijke voorkeuren, die later kan worden hersteld), terwijl code-RL en software-engineering-RL het beste werken als de laatste fasen, aldus het rapport.

Voor bedrijfsteams is de implicatie eenvoudig: als u RL toepast om een ​​model voor meerdere mogelijkheden te verbeteren, kan het opeenvolgend trainen van deze teams met een zorgvuldige volgorde betere resultaten opleveren dan wanneer u alles in één keer probeert te trainen.

MOPD: het hergebruiken van je eigen trainingscheckpoints als docenten

Zelfs met zorgvuldige sequentiële ordening is enige prestatieafwijking onvermijdelijk naarmate het model vele RL-fasen doorloopt. De oplossing van Nvidia is Multi-Domain On-Policy Distillatie (MOPD) — een techniek die halverwege de Cascade RL-pijplijn is ingebracht om de capaciteiten opnieuw in evenwicht te brengen.

De aanpak werkt als volgt: Naarmate het model verschillende RL-fasen doorloopt, zullen sommige tussenliggende controlepunten de best presterende versie zijn voor specifieke domeinen. Het wiskundige controlepunt is mogelijk het sterkst na SFT; het instructievolgende controlepunt kan het sterkst zijn na IF-RL. MOPD selecteert voor elk domein het beste tussenliggende controlepunt en gebruikt dit als ‘leraar’ om kennis terug te brengen in het studentenmodel.

Cruciaal is dat deze leraren geen externe modellen zijn. Ze komen uit dezelfde trainingsrun en delen dezelfde tokenizer en architectuur. Dit elimineert distributie-mismatch-problemen die optreden bij het distilleren uit een compleet andere modelfamilie.

Volgens het technische rapport van Nvidia werkt MOPD op tokenniveau in plaats van op sequentieniveau, waardoor het aanzienlijk steekproefefficiënter is dan RL met resultaatgebaseerde beloningen (GRPO enz.). Het Nvidia-team meldt dat MOPD op de AIME 2025-wiskundebenchmark de prestaties op leraarniveau binnen 30 optimalisatiestappen herstelde, terwijl standaard GRPO (Group Relative Policy Optimization) meer stappen nodig had om een ​​lagere score te behalen. Op de ArenaHard-benchmark voor het afstemmen van menselijke voorkeuren bereikte MOPD 85,5 op harde aanwijzingen in 52 stappen, tegenover RLHF’s 80,7 in 160 stappen.

Het benchmarkbeeld: dominant in redenering, eerlijk over afwegingen

De resultaten op redeneerintensieve benchmarks zijn opvallend. Op LiveCodeBench v6een coderingsbenchmark met problemen van concurrerende programmeerplatforms, scoort Nemotron-Cascade 2 87,2 – beter dan Qwen3.5-35B-A3B (74,6), Qwen3.5-397B-A17B (83,6) en zelfs Kimi-K2.5-1T (85,0). Op HMMT februari 2025een strenge wiskundewedstrijdbenchmark, scoort het 94,6, nek-aan-nek met modellen die vele malen groter zijn. Op ArenaHard v2 voor uitlijningskwaliteit bereikt hij een score van 83,5, ruim vóór de concurrenten in zijn klasse. Als tool-geïntegreerd redeneren is ingeschakeld, stijgen de prestaties van AIME 2025 naar 98,6. Alle benchmarkscores worden door Nvidia zelf gerapporteerd en zijn niet onafhankelijk geverifieerd.

Het technische rapport is ook openhartig over de zwakke punten. Het model presteert slechter dan Qwen3.5-35B-A3B op kennisintensieve benchmarks zoals MMLU-Pro (79,8 versus 85,3) en GPQA-Diamond (76,1 versus 84,2), evenals op verschillende agentische benchmarks zoals BFCL v4 en τ²-Bench. De auteurs merken expliciet op dat sterkere kennisintensieve vooropleiding en agentische RL nodig zijn in toekomstig werk.

Deze eerlijkheid is belangrijk voor beoefenaars. Het model is geoptimaliseerd voor diep redeneren en het volgen van instructies, niet voor het ophalen van algemene kennis of complexe interacties met meerdere agenten. Teams moeten evalueren op basis van hun specifieke gebruiksscenario en niet uitgaan van algemene superioriteit.

Wat zakelijke AI-teams uit dit recept kunnen halen

Verschillende ontwerppatronen uit dit werk zijn direct toepasbaar op de inspanningen van ondernemingen na de training. De sequentiële domeinvolgorde in Cascade RL betekent dat teams nieuwe mogelijkheden kunnen toevoegen zonder de hele pijplijn opnieuw op te bouwen – een cruciale eigenschap voor organisaties die snel moeten itereren. MOPD’s benadering van het gebruik van tussenliggende controlepunten als domeinspecifieke leraren elimineert de behoefte aan dure externe lerarenmodellen; teams kunnen distilleren uit hun eigen best presterende snapshots.

De trainingsopzet is ook opmerkelijk: Cascade RL maakt gebruik van GRPO met strikte beleidstraining en geen KL-boete via Nvidia’s open-source Nemo-RL-opslagplaats. Voor code RL gebruikte de pijplijn slechts 3.500 moeilijke, gefilterde problemen.

Het grotere geheel: intelligentiedichtheid als ontwerpprincipe

Nemotron-Cascade 2 maakt deel uit van een bredere trend in de richting van ‘intelligentiedichtheid’ – waarbij maximale capaciteit per actieve parameter wordt geëxtraheerd. De MoE-modellen van DeepSeek, de A3B-varianten van Qwen en nu de Cascade-serie van Nvidia wijzen allemaal op een toekomst waarin de meest capabele redeneermodellen niet noodzakelijkerwijs de grootste zijn.

Voor bedrijfsimplementatie is dit enorm van belang. Een model met actieve 3B-parameters kan worden geleverd tegen een fractie van de kosten en latentie van een compact 70B-model. De resultaten van Nvidia suggereren dat post-trainingstechnieken zoals Cascade RL en MOPD de prestatiekloof op gerichte domeinen kunnen dichten, waardoor organisaties een pad krijgen om sterke redeneercapaciteiten in te zetten zonder infrastructuurkosten op grensniveau.

De open vraag is in hoeverre deze aanpak kan worden veralgemeend. Cascade RL werkt goed voor domeinen met verifieerbare beloningen: wiskunde heeft correcte antwoorden, code heeft testgevallen, het volgen van instructies heeft op regels gebaseerde controles. Het uitbreiden ervan naar meer open bedrijfstaken, waarbij verificatie dubbelzinnig is, blijft een actieve onderzoeksuitdaging. Voor teams die systemen bouwen die diep moeten redeneren over gestructureerde problemen – financiële modellering, wetenschappelijk computergebruik, software-engineering, compliance-analyse – biedt het technische rapport van Nvidia een van de meer gedetailleerde post-trainingsmethodologieën die tot nu toe zijn gepubliceerd.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in