Nvidia-CEO Jensen Huang zei vorig jaar dat we nu het tijdperk van fysieke AI ingaan. Terwijl het bedrijf LLM’s blijft aanbieden voor softwaregebruik, is Nvidia dat wel zichzelf steeds meer positioneren als leverancier van AI-modellen voor volledig AI-aangedreven systemen – inclusief agentische AI in de fysieke wereld.
Op CES 2026 kondigde Nvidia een reeks nieuwe modellen aan die zijn ontworpen om AI-agenten voorbij chatinterfaces en naar fysieke omgevingen te duwen.
Nvidia gelanceerd Kosmos Reden 2de nieuwste versie van zijn visie-taalmodel, ontworpen voor belichaamd redeneren. Kosmos Reden 1, vorig jaar uitgebrachtintroduceerde een tweedimensionale ontologie voor belichaamd redeneren en momenteel leidt de fysieke redenering van Hugging Face voor het videoklassement.
Cosmos Reason 2 bouwt voort op dezelfde ontologie en geeft bedrijven tegelijkertijd meer flexibiliteit om applicaties aan te passen en fysieke agenten in staat te stellen hun volgende acties te plannen, vergelijkbaar met hoe op software gebaseerde agenten door digitale workflows redeneren.
Nvidia heeft ook een nieuwe versie van Cosmos Transfer uitgebracht, een model waarmee ontwikkelaars trainingssimulaties voor robots genereren.
Andere visie-taalmodellen, zoals die van Google PaliGemma En Pixtral Large van Mistralkan visuele input verwerken, maar niet alle in de handel verkrijgbare VLM’s ondersteunen redenering.
“Robotica bevindt zich op een keerpunt. We evolueren van gespecialiseerde robots die beperkt zijn tot afzonderlijke taken naar generalistische gespecialiseerde systemen”, zegt Kari Briski, vice-president van Nvidia voor generatieve AI-software, in een briefing met verslaggevers. Ze doelde op robots die brede fundamentele kennis combineren met diepgaande taakspecifieke vaardigheden. “Deze nieuwe robots combineren brede fundamentele kennis met diepgaande vaardigheid en complexe taken.”
Ze voegde eraan toe dat Cosmos Reason 2 “het redeneervermogen verbetert dat robots nodig hebben om door de onvoorspelbare fysieke wereld te navigeren.”
Overstappen op fysieke agenten
Briski merkte op dat de routekaart van Nvidia “hetzelfde patroon van activa volgt in al onze open modellen.”
“Bij het bouwen van gespecialiseerde AI-agenten, een digitaal personeelsbestand of de fysieke belichaming van AI in robots en autonome voertuigen is meer nodig dan alleen het model”, aldus Briski. “Ten eerste heeft de AI de computerbronnen nodig om de wereld om zich heen te trainen en te simuleren. Data zijn de brandstof voor AI om te leren en te verbeteren en we dragen bij aan ’s werelds grootste verzameling open en diverse datasets, die verder gaan dan alleen het openen van de gewichten van de modellen. De open bibliotheken en trainingsscripts geven ontwikkelaars de tools om AI speciaal voor hun toepassingen te bouwen, en we publiceren blauwdrukken en voorbeelden om AI te helpen inzetten als modelsystemen.”
Het bedrijf heeft nu open modellen specifiek voor fysieke AI in Cosmos, robotica, met het open-redenerende vision-taal-actie (VLA) model Gr00t en zijn Nemotron-modellen voor agentische AI.
Nvidia pleit ervoor dat open modellen in verschillende takken van AI een gedeeld bedrijfsecosysteem vormen dat gegevens, training en redenering levert aan agenten in zowel de digitale als de fysieke wereld.
Toevoegingen aan de Nemotron-familie
Briski zei dat Nvidia van plan is zijn open modellen, inclusief de Nemotron-familie, verder uit te breiden en een nieuw RAG- en inbeddingsmodel op te nemen om informatie gemakkelijker beschikbaar te maken voor agenten. Het bedrijf Nemotron 3 uitgebrachtde nieuwste versie van zijn agentische redeneermodellen, in december.
Nvidia heeft drie nieuwe toevoegingen aan de Nemotron-familie aangekondigd: Nemotron Speech, Nemotron RAG en Nemotron Safety.
In een blogpost zegt Nvidia dat Nemotron Speech “real-time spraakherkenning met lage latentie voor live ondertiteling en spraak-AI-toepassingen” levert en 10 keer sneller is dan andere spraakmodellen.
Nemotron RAG bestaat technisch gezien uit twee modellen: een inbeddingsmodel en een rerankmodel, die beide afbeeldingen kunnen begrijpen om meer multimodale inzichten te bieden waar data-agenten gebruik van kunnen maken.
“Nemotron RAG staat bovenaan wat wij de MMTab noemen, of de Massive Multilingual Text Embedding Benchmark, met sterke meertalige prestaties terwijl hij minder rekenkrachtgeheugen gebruikt, dus ze zijn goed geschikt voor systemen die veel verzoeken zeer snel en met weinig vertraging moeten afhandelen”, aldus Briski.
Nemotron Safety detecteert gevoelige gegevens, zodat AI-agenten niet per ongeluk persoonlijk identificeerbare gegevens vrijgeven.



