Het grote nieuws deze week van Nvidia, dat in alle media in de krantenkoppen verscheen, was de aankondiging van het bedrijf over zijn Vera Rubin GPU.
Deze week gebruikte Nvidia-CEO Jensen Huang zijn CES-keynote om de prestatiestatistieken voor de nieuwe chip te benadrukken. Volgens Huang is de Rubin GPU in staat tot 50 PFLOP’s aan NVFP4-inferentie en 35 PFLOP’s aan NVFP4-trainingsprestaties, wat neerkomt op 5x en 3,5x de prestaties van Blackwell.
Maar het zal pas in de tweede helft van 2026 beschikbaar zijn. Wat moeten bedrijven nu doen?
Blackwell wordt steeds beter
De huidige Nvidia GPU-architectuur is Blackwell, wat dat ook was aangekondigd in 2024 als opvolger van Hopper. Naast die release benadrukte Nvidia dat haar productontwikkelingstraject ook inhield dat ze zoveel mogelijk prestaties uit de eerdere Grace Hopper-architectuur moesten persen.
Het is een richting die ook voor Blackwell zal gelden, met Vera Rubin later dit jaar.
“We blijven onze inferentie- en trainingsstacks voor de Blackwell-architectuur optimaliseren”, vertelde Dave Salvator, directeur van Accelerated Computing Products bij Nvidia, aan VentureBeat.
In dezelfde week dat Vera Rubin door de CEO van Nvidia werd aangeprezen als de krachtigste GPU ooit, publiceerde het bedrijf nieuwe onderzoek met verbeterde Blackwell-prestaties.
Hoe de prestaties van Blackwell de inferentie met 2,8x hebben verbeterd
Nvidia is erin geslaagd de Blackwell GPU-prestaties met maximaal 2,8x per GPU te verhogen in een periode van slechts drie korte maanden.
De prestatiewinst komt voort uit een reeks innovaties die zijn toegevoegd aan de Nvidia TensorRT-LLM-inferentie-engine. Deze optimalisaties zijn van toepassing op bestaande hardware, waardoor de huidige Blackwell-implementaties een hogere doorvoer kunnen realiseren zonder hardwarewijzigingen.
De prestatiewinst wordt gemeten op DeepSeek-R1, een 671 miljard parameter mix-of-experts (MoE)-model dat 37 miljard parameters per token activeert.
Onder de technische innovaties die voor de prestatieverbetering zorgen:
-
Programmatisch afhankelijke lancering (PDL): Uitgebreide implementatie vermindert de latenties bij het opstarten van de kernel, waardoor de doorvoer toeneemt.
-
Allesomvattende communicatie: Nieuwe implementatie van communicatieprimitieven elimineert een tussenbuffer, waardoor de geheugenoverhead wordt verminderd.
-
Multi-token voorspelling (MTP): Genereert meerdere tokens per voorwaartse doorgang in plaats van één tegelijk, waardoor de doorvoer over verschillende reekslengtes toeneemt.
-
NVFP4-formaat: Een 4-bit floating point-formaat met hardwareversnelling in Blackwell dat de vereisten voor geheugenbandbreedte vermindert terwijl de modelnauwkeurigheid behouden blijft.
De optimalisaties verlagen de kosten per miljoen tokens en zorgen ervoor dat de bestaande infrastructuur hogere aanvraagvolumes kan verwerken met een lagere latentie. Cloudproviders en ondernemingen kunnen hun AI-diensten schalen zonder onmiddellijke hardware-upgrades.
Blackwell heeft ook winst geboekt op het gebied van trainingsprestaties
Blackwell wordt ook veel gebruikt als fundamentele hardwarecomponent voor het trainen van de grootste grote taalmodellen.
In dat opzicht heeft Nvidia ook aanzienlijke winsten voor Blackwell gemeld bij gebruik voor AI-training.
Sinds de eerste lancering leverde het GB200 NVL72-systeem tot 1,4x hogere trainingsprestaties op dezelfde hardware: een stijging van 40% die in slechts vijf maanden werd bereikt zonder enige hardware-upgrades.
De trainingsboost kwam voort uit een reeks updates, waaronder:
-
Geoptimaliseerde trainingsrecepten. Nvidia-ingenieurs hebben geavanceerde trainingsrecepten ontwikkeld die effectief gebruik maken van de NVFP4-precisie. Bij de eerste Blackwell-inzendingen werd gebruik gemaakt van FP8-precisie, maar de overgang naar NVFP4-geoptimaliseerde recepten maakte substantiële extra prestaties van het bestaande silicium mogelijk.
-
Algoritmische verfijningen. Door voortdurende verbeteringen aan de softwarestack en algoritmische verbeteringen kon het platform meer prestaties uit dezelfde hardware halen, wat blijk geeft van voortdurende innovatie die verder gaat dan de initiële implementatie.
Verdubbel Blackwell of wacht op Vera Rubin?
Salvator merkte op dat de high-end Blackwell Ultra een toonaangevend platform is dat speciaal is gebouwd om de modernste AI-modellen en -applicaties uit te voeren.
Hij voegde eraan toe dat het Nvidia Rubin-platform het marktleiderschap van het bedrijf zal uitbreiden en de volgende generatie MoE’s in staat zal stellen een nieuwe klasse toepassingen aan te sturen om AI-innovatie nog verder te brengen.
Salvator legde uit dat de Vera Rubin is gebouwd om tegemoet te komen aan de groeiende vraag naar rekenkracht die wordt gecreëerd door de aanhoudende groei in modelomvang en het genereren van redeneringstokens van toonaangevende modellen zoals MoE.
“Blackwell en Rubin kunnen dezelfde modellen bedienen, maar het verschil zit hem in de prestaties, efficiëntie en symbolische kosten”, zei hij.
Volgens de eerste testresultaten van Nvidia kan Rubin, vergeleken met Blackwell, grote MoE-modellen trainen in een kwart van het aantal GPU’s, het genereren van inferentietokens met 10x meer doorvoer per watt en inferentie tegen 1/10 van de kosten per token.
“Betere prestaties en efficiëntie van de tokendoorvoer betekent dat nieuwere modellen kunnen worden gebouwd met meer redeneervermogen en snellere agent-tot-agent-interactie, waardoor betere intelligentie ontstaat tegen lagere kosten”, aldus Salvator.
Wat het allemaal betekent voor zakelijke AI-bouwers
Voor bedrijven die vandaag de dag AI-infrastructuur inzetten, blijven de huidige investeringen in Blackwell gezond, ondanks de komst van Vera Rubin later dit jaar.
Organisaties met bestaande Blackwell-implementaties kunnen de 2,8x inferentieverbetering en 1,4x trainingsboost onmiddellijk benutten door te updaten naar de nieuwste TensorRT-LLM-versies, wat echte kostenbesparingen oplevert zonder kapitaaluitgaven. Voor degenen die nieuwe implementaties plannen in de eerste helft van 2026 is doorgaan met Blackwell zinvol. Zes maanden wachten betekent dat AI-initiatieven worden uitgesteld en mogelijk achterop raakt bij concurrenten die vandaag al inzetten.
Bedrijven die grootschalige infrastructuuruitbreidingen plannen voor eind 2026 en daarna moeten Vera Rubin echter in hun routekaarten opnemen. De 10x verbetering in doorvoer per watt en 1/10e kosten per token vertegenwoordigen transformationele economie voor AI-operaties op schaal.
De slimme aanpak is een gefaseerde implementatie: gebruik Blackwell voor onmiddellijke behoeften en ontwerp tegelijkertijd systemen waarin Vera Rubin kan worden geïntegreerd, indien beschikbaar. Het continue optimalisatiemodel van Nvidia betekent dat dit geen binaire keuze is; Bedrijven kunnen de waarde uit de huidige implementatie maximaliseren zonder dat dit ten koste gaat van het concurrentievermogen op de lange termijn.


