Home Nieuws Nvidia’s nieuwe open gewichten Nemotron 3 super combineert drie verschillende architecturen om...

Nvidia’s nieuwe open gewichten Nemotron 3 super combineert drie verschillende architecturen om gpt-oss en Qwen te verslaan in doorvoer

6
0
Nvidia’s nieuwe open gewichten Nemotron 3 super combineert drie verschillende architecturen om gpt-oss en Qwen te verslaan in doorvoer

Multi-agentsystemen, ontworpen om taken over een lange horizon af te handelen, zoals software-engineering of cybersecurity-triaging, kunnen tot vijftien keer het symbolische volume van standaardchats genereren, wat hun kosteneffectiviteit bij het afhandelen van bedrijfstaken in gevaar brengt.

Maar vandaag probeerde Nvidia dit probleem te helpen oplossen met de release van Nemotron 3 Supereen hybride model met 120 miljard parameters, waarop gewichten zijn vermeld Knuffelend gezicht.

Door ongelijksoortige architectuurfilosofieën samen te voegen – state-space-modellen, transformatoren en een nieuw ‘latent’ mengsel van experts-ontwerp – probeert Nvidia de gespecialiseerde diepgang te bieden die nodig is voor agentische workflows zonder de opgeblazenheid die kenmerkend is voor modellen voor compact redeneren, en allemaal beschikbaar voor commercieel gebruik onder voornamelijk open gewichten.

Drievoudige hybride architectuur

De kern van Nemotron 3 Super wordt gevormd door een verfijnde architectonische triade die geheugenefficiëntie in evenwicht brengt met nauwkeurig redeneren. Het model maakt gebruik van a Hybride Mamba-Transformer-ruggengraatwaarin Mamba-2-lagen worden afgewisseld met strategische Transformer-aandachtslagen.

Om de implicaties voor de bedrijfsproductie te begrijpen, moeten we het probleem van de ‘naald in een hooiberg’ beschouwen. Mamba-2-lagen fungeren als een ‘snel’ snelwegsysteem en verwerken de overgrote meerderheid van sequentieverwerking met lineaire tijdcomplexiteit. Hierdoor kan het model een enorm contextvenster van 1 miljoen token behouden zonder dat de geheugenvoetafdruk van de KV-cache explodeert. Pure toestandsruimtemodellen worstelen echter vaak met associatieve herinnering.

Om dit op te lossen voegt Nvidia op strategische wijze Transformer-aandachtslagen in als ‘globale ankers’, waardoor het model nauwkeurig specifieke feiten kan ophalen die diep verborgen liggen in een codebase of een stapel financiële rapporten.

Voorbij de ruggengraat introduceert het model Latente mix van experts (LatentMoE). Traditionele Mixture-of-Experts (MoE)-ontwerpen routetokens naar experts in hun volledig verborgen dimensie, wat een computationeel knelpunt creëert naarmate modellen schalen. LatentMoE lost dit op door tokens in een gecomprimeerde ruimte te projecteren voordat ze naar specialisten worden doorgestuurd.

Dankzij deze “expertcompressie” kan het model vier keer zoveel specialisten raadplegen voor exact dezelfde rekenkosten. Deze granulariteit is essentieel voor agenten die binnen één beurt moeten schakelen tussen Python-syntaxis, SQL-logica en conversatieredeneringen.

Een verdere versnelling van het model is Multi-Token Prediction (MTP). Terwijl standaardmodellen één volgend token voorspellen, voorspelt MTP meerdere toekomstige tokens tegelijkertijd. Dit dient als een “ingebouwd conceptmodel”, waardoor native speculatieve decodering mogelijk is die tot 3x snellere kloksnelheden kan opleveren voor gestructureerde generatietaken zoals code- of tooloproepen.

Het Blackwell-voordeel

Voor ondernemingen is de belangrijkste technische sprong in Nemotron 3 Super de optimalisatie voor het Nvidia Blackwell GPU-platform. Door native vooraf te trainen in NVFP4 (4-bit floating point), heeft Nvidia een doorbraak bereikt in productie-efficiëntie.

Op Blackwell levert het model vier keer snellere gevolgtrekkingen dan 8-bits modellen die op de vorige Hopper-architectuur draaien, zonder verlies aan nauwkeurigheid.

In de praktijk is Nemotron 3 Super een gespecialiseerd hulpmiddel voor agentisch redeneren.

Het bekleedt momenteel de nummer 1-positie op de DeepResearch Bench, een benchmark die het vermogen van een AI meet om grondig onderzoek in meerdere stappen uit te voeren over grote documentensets.

Benchmark

Nemotron 3 Super

Qwen3.5-122B-A10B

GPT-OSS-120B

Algemene kennis

MMLU-Pro

83,73

86,70

81.00 uur

Redenering

AIME25 (geen gereedschap)

90.21

90.36

92,50

HMMT 25 februari (geen gereedschap)

93,67

91.40

90.00 uur

HMMT 25 februari (met gereedschap)

94,73

89,55

GPQA (geen tools)

79.23

86.60

80.10

GPQA (met gereedschap)

82,70

80.09

LiveCodeBench (v5 2024-07↔2024-12)

81.19

78,93

88.00 uur

SciCode (subtaak)

42.05

42.00 uur

39.00 uur

HLE (geen gereedschap)

18.26

25.30 uur

14.90

HLE (met gereedschap)

22.82

19.0

Agent

Terminal Bench (harde subset)

25.78

26.80

24.00 uur

Terminalbank Core 2.0

31.00 uur

37.50

18.70

SWE-bank (OpenHands)

60.47

66.40

41,9

SWE-Bench (OpenCode)

59.20

67.40

SWE-bank (Codex)

53,73

61.20

SWE-Bench Meertalig (OpenHands)

45,78

30.80

TauBench V2

Luchtvaartmaatschappij

56.25

66,0

49.2

Detailhandel

62,83

62,6

67,80

Telecom

64.36

95.00 uur

66.00 uur

Gemiddeld

61.15

74.53

61,0

Blader door Comp met zoeken

31.28

33.89

VOGEL Bank

41.80

38.25

Chat en instructies volgen

IFBench (prompt)

72,56

73,77

68.32

Schaal AI Multi-uitdaging

55.23

61,50

58.29

Arena-Hard-V2

73,88

75.15

90.26

Lange context

AA-LCR

58.31

66,90

51.00 uur

HEERSER @ 256k

96.30

96,74

52.30 uur

HEERSER @ 512k

95,67

95,95

46.70

HEERSER @ 1M

91,75

91.33

22.30 uur

Meertalig

MMLU-ProX (gem. over lengte)

79.36

85.06

76,59

WMT24++ (nl→xx)

86,67

87,84

88,89

Het laat ook aanzienlijke doorvoervoordelen zien, waarbij een tot 2,2x hogere doorvoer wordt bereikt dan gpt-oss-120B en 7,5x hoger dan Qwen3.5-122B in instellingen voor hoge volumes.

Nvidia Nemotron 3 Super belangrijke benchmarkgrafiek. Nvidia

Aangepaste ‘open’ licentie — commercieel gebruik maar met belangrijke kanttekeningen

De release van Nemotron 3 Super onder de Nvidia Open Model-licentieovereenkomst (bijgewerkt in oktober 2025) biedt een tolerant raamwerk voor adoptie door bedrijven, hoewel het duidelijke “veiligheidsclausules” bevat die het onderscheiden van pure open-sourcelicenties zoals MIT of Apache 2.0.

Belangrijkste bepalingen voor zakelijke gebruikers:

  • Commerciële bruikbaarheid: De licentie vermeldt expliciet dat modellen “commercieel bruikbaar” zijn en verleent een eeuwigdurende, wereldwijde, royaltyvrije licentie om producten die op het model zijn gebouwd te verkopen en distribueren.

  • Eigendom van output: Nvidia maakt geen aanspraak op de output die door het model wordt gegenereerd; de verantwoordelijkheid voor deze resultaten – en het eigendom ervan – ligt volledig bij de gebruiker.

  • Afgeleide werken: Het staat ondernemingen vrij om “afgeleide modellen” (verfijnde versies) te creëren en te bezitten, op voorwaarde dat deze de vereiste toeschrijvingskennisgeving bevatten: “Gelicentieerd door Nvidia Corporation onder de Nvidia Open Model License.”

De “rode lijnen”:

De licentie omvat twee kritische beëindigingstriggers die productieteams moeten monitoren:

  1. Veiligheidsleuningen: De licentie wordt automatisch beëindigd als een gebruiker de “Guardrails” (technische beperkingen of veiligheidshyperparameters) van het model omzeilt of omzeilt zonder een “substantieel vergelijkbare” vervanging te implementeren die geschikt is voor de gebruikssituatie.

  2. Trigger voor rechtszaken: Als een gebruiker een auteursrecht- of patentzaak tegen Nvidia start en beweert dat het model inbreuk maakt op zijn/haar intellectuele eigendom, eindigt zijn licentie om het model te gebruiken onmiddellijk.

Deze structuur stelt Nvidia in staat een commercieel ecosysteem te koesteren terwijl het zichzelf beschermt tegen “IP-trollen” en ervoor zorgt dat het model niet wordt ontdaan van zijn veiligheidsfuncties voor kwaadwillig gebruik.

‘Het team heeft echt gekookt’

De release heeft voor veel buzz gezorgd binnen de ontwikkelaarsgemeenschap. Chris Alexiuk, Senior Product Research Enginner bij Nvidia, luidde de lancering van X onder zijn leiding in @llm_wizard als een ‘SUPER DAY’, waarbij de snelheid en transparantie van het model worden benadrukt. “Model is: SNEL. Model is: SLIM. Model is: HET MEEST OPEN MODEL DAT WE NOG HEBBEN GEDAAN,” Chris plaatste een bericht waarin hij de vrijgave van niet alleen gewichten benadrukte, maar ook 10 biljoen tokens aan trainingsgegevens en recepten.

De acceptatie door de industrie weerspiegelt dit enthousiasme:

  • Cloud en hardware: Het model wordt ingezet als een Nvidia NIM-microservicewaardoor het on-premises kan worden uitgevoerd via de Dell AI-fabriek of HPEevenals in Google Cloud, Oracle en binnenkort AWS en Azure.

  • Productieagenten: Bedrijven zoals CodeKonijn (softwareontwikkeling) en Griep integreren het model om grootschalige codebase-analyse uit te voeren, terwijl industriële leiders dat leuk vinden Siemens En Palantir zetten het in om complexe workflows in de productie en cyberbeveiliging te automatiseren.

Zoals Kari Briski, Nvidia VP van AI Software, opmerkte: “Terwijl bedrijven verder gaan dan chatbots en overgaan op multi-agent-applicaties, worden ze geconfronteerd met een contextexplosie.”

Nemotron 3 Super is Nvidia’s antwoord op die explosie: een model dat de “denkkracht” van een 120B-parametersysteem biedt met de operationele efficiëntie van een veel kleinere specialist. Voor de onderneming is de boodschap duidelijk: de ‘denkbelasting’ komt eindelijk omlaag.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in