Home Nieuws Nvidia introduceert Nemotron 3 met hybride MoE en Mamba-Transformer om efficiënte agentische...

Nvidia introduceert Nemotron 3 met hybride MoE en Mamba-Transformer om efficiënte agentische AI ​​aan te sturen

7
0
Nvidia introduceert Nemotron 3 met hybride MoE en Mamba-Transformer om efficiënte agentische AI ​​aan te sturen

Nvidia lanceerde de nieuwe versie van zijn grensmodellen, Nemotron 3, door te vertrouwen op een modelarchitectuur die volgens ’s werelds meest waardevolle bedrijf meer nauwkeurigheid en betrouwbaarheid biedt voor agenten.

Nemotron 3 zal verkrijgbaar zijn in drie maten: Nemotron 3 Nano met 30B-parameters, voornamelijk voor gerichte, zeer efficiënte taken; Nemotron 3 Super, een parametermodel van 100 miljard voor toepassingen met meerdere agenten en met zeer nauwkeurige redenering, en Nemotron 3 Ultra, met zijn grote redeneermotor en ongeveer 500 miljard parameters voor complexere toepassingen.

Om de Nemotron 3-modellen te bouwen, zei Nvidia dat het gebruik maakte van een hybride mix van experts (MoE)-architectuur om de schaalbaarheid en efficiëntie te verbeteren. Door deze architectuur te gebruiken, zei Nvidia in een persbericht dat haar nieuwe modellen bedrijven ook meer openheid en prestaties bieden bij het bouwen van autonome systemen met meerdere agenten.

Kari Briski, vice-president van Nvidia voor generatieve AI-software, vertelde verslaggevers in een briefing dat het bedrijf zijn toewijding wilde demonstreren om te leren en te verbeteren van eerdere versies van zijn modellen.

“Wij zijn van mening dat we in een unieke positie zijn om een ​​breed scala aan ontwikkelaars te bedienen die volledige flexibiliteit willen om modellen aan te passen voor het bouwen van gespecialiseerde AI door die nieuwe hybride mix van onze mix van expertsarchitectuur te combineren met een contextlengte van 1 miljoen tokens”, aldus Briski.

Nvidia zei dat early adopters van de Nemotron 3-modellen Accenture, CrowdStrike, Cursor, Deloitte, EY, Oracle Cloud Infrastructure, Palantir, Perplexity, ServiceNow, Siemens en Zoom zijn.

Baanbrekende architecturen

Nvidia heeft voor veel van zijn modellen de hybride Mamba-Transformer-architectuur van mix van experts gebruikt. inclusief Nemotron-Nano-9B-v2.

De architectuur is gebaseerd op onderzoek van de Carnegie Mellon University en Princeton, waarin selectieve toestandsruimtemodellen zijn verwerkt om lange stukken informatie te verwerken met behoud van toestanden. Het kan de computerkosten verlagen, zelfs in lange contexten.

Nvidia merkte op dat het ontwerp “tot 4x hogere tokendoorvoer bereikt” vergeleken met Nemotron 2 Nano en de inferentiekosten aanzienlijk kan verlagen door het genereren van redeneringstokens met wel 60% te verminderen.

“We moeten die efficiëntie echt kunnen verhogen en de kosten per token verlagen. En je kunt het op een aantal manieren doen, maar we doen het echt via de innovaties van die modelarchitectuur”, zei Briski. “De hybride Mamba-transformatorarchitectuur werkt meerdere keren sneller met minder geheugen, omdat het deze enorme aandachtskaarten en sleutelwaardecaches voor elk afzonderlijk token vermijdt.”

Nvidia introduceerde ook een aanvullende innovatie voor de Nemotron 3 Super- en Ultra-modellen. Hiervoor zei Briski dat Nvidia “een doorbraak heeft ingezet die latente MoE wordt genoemd.”

“Dat zijn al deze experts in jouw model die een gemeenschappelijke kern delen en slechts een klein deel privé houden. Het is net zoiets als chef-koks die één grote keuken delen, maar ze moeten hun eigen kruidenrek hebben”, voegde Briski eraan toe.

Nvidia is niet het enige bedrijf dat dit soort architectuur gebruikt om modellen te bouwen. AI21 Labs gebruikt het recentelijk voor zijn Jamba-modellen in zijn Jamba Reasoning 3B-model.

De Nemotron 3-modellen profiteerden van uitgebreid versterkingsleren. De grotere modellen, Super en Ultra, gebruikten het 4-bits NVFP4-trainingsformaat van het bedrijf, waardoor ze konden trainen op de bestaande infrastructuur zonder dat dit ten koste ging van de nauwkeurigheid.

Benchmarktests van Artificial Analysis plaatsten de Nemotron-modellen hoog onder de modellen van vergelijkbare grootte.

Nieuwe omgevingen waar modellen kunnen ‘uitwerken’

Als onderdeel van de lancering van Nemotron 3 zal Nvidia gebruikers ook toegang geven tot zijn onderzoek door zijn papieren en voorbeeldprompts vrij te geven, open datasets aan te bieden waar mensen pre-training tokens en post-training samples kunnen gebruiken en bekijken, en het allerbelangrijkste: een nieuwe NeMo Gym waar klanten hun modellen en agenten kunnen laten ‘trainen’.

De NeMo Gym is een leerlaboratorium voor versterking waar gebruikers hun modellen in gesimuleerde omgevingen kunnen laten draaien om hun prestaties na de training te testen.

AWS heeft een soortgelijke tool aangekondigd via zijn Nova Forge-platformbedoeld voor bedrijven die hun nieuw gemaakte gedistilleerde of kleinere modellen willen testen.

Briski zei dat de voorbeelden van post-trainingsgegevens die Nvidia wil vrijgeven “ordes van grootte groter zijn dan welke beschikbare post-trainingsdataset dan ook en ook zeer tolerant en open zijn.”

Nvidia wees ontwikkelaars op zoek naar zeer intelligente en performante open modellen, zodat ze beter kunnen begrijpen hoe ze deze indien nodig kunnen begeleiden, als basis voor het vrijgeven van meer informatie over hoe het zijn modellen traint.

“Modelontwikkelaars komen vandaag de dag met deze moeilijke trifecta in aanraking. Ze moeten modellen vinden die ultra open zijn, extreem intelligent en zeer efficiënt zijn”, zei ze. “De meeste open modellen dwingen ontwikkelaars tot pijnlijke afwegingen tussen efficiëntieverbeteringen zoals tokenkosten, latentie en doorvoer.”

Ze zei dat ontwikkelaars willen weten hoe een model is getraind, waar de trainingsgegevens vandaan komen en hoe ze deze kunnen evalueren.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in