Home Nieuws Goedkopere tokens, hogere rekeningen: de nieuwe wiskunde van AI-infrastructuur

Goedkopere tokens, hogere rekeningen: de nieuwe wiskunde van AI-infrastructuur

5
0
Goedkopere tokens, hogere rekeningen: de nieuwe wiskunde van AI-infrastructuur

Gepresenteerd door Nutanix


Nu bedrijven overstappen van AI-experimenten naar productie-implementatie, is de belangrijkste kostenfactor verschoven van basismodeltraining naar de infrastructuur die nodig is om duizenden gelijktijdige inferentieworkloads op schaal uit te voeren, met agentische AI ​​als versneller.

Waar vroege AI-projecten voor ondernemingen een handvol grote, geplande trainingstaken met zich meebrachten, vereisen productie-agentische omgevingen continue ondersteuning voor kortstondige, onvoorspelbare verzoeken die GPU-, netwerk- en opslagbronnen verbruiken op manieren waarop de traditionele infrastructuur nooit was ontworpen. Voor leiders op het gebied van bedrijfstechnologie verandert deze verschuiving de efficiëntie van de infrastructuur in een make-or-break-factor in de AI-economie.

“Elke medewerker met een AI-assistent, elke geautomatiseerde workflow, elke agentpijplijn heeft modellen nodig voor gevolgtrekking en genereert veel tokens”, zegt Anindo Sengupta, VP Products bij Nutanix. “Deze deductieverzoeken komen terecht op een GPU-infrastructuur, doorkruisen gespecialiseerde netwerken en halen gegevens uit opslagsystemen die speciaal zijn gebouwd om deze AI-workloads te ondersteunen.”

Waarom kosten per token een kerninfrastructuurstatistiek worden

Er zijn gevolgtrekkingskosten per token ongeveer een orde van grootte gedaald in de afgelopen twee jaar, gedreven door verbeteringen in de efficiëntie van modellen en concurrentiedruk onder cloudproviders. De verwachting is dat enterprise AI goedkoper wordt. In plaats van, de totale kosten stijgenzegt Sengupta, wijzend op wat economen de Jevons-paradox noemen: wanneer een hulpbron goedkoper wordt in het gebruik, heeft de consumptie de neiging sneller te stijgen dan de prijs daalt.

Dus terwijl de kosten per token de afgelopen jaren met bijna een orde van 10 zijn gedaald, is het verbruik meer dan 100x gestegen. Het resultaat is dat de kosten per token en het GPU-gebruik primaire operationele maatstaven worden voor zakelijke IT, naast traditionele maatstaven als uptime en doorvoer.

“De kosten per token gaan eigenlijk over de totale eigendomskosten voor het bedienen van inferentiemodellen”, zegt Sengupta. “Bij gebruik gaat het erom ervoor te zorgen dat als je eenmaal over GPU-middelen beschikt, je er maximaal rendement uit haalt. Deze statistieken zullen van cruciaal belang zijn voor IT-leiders in ondernemingen.”

Wat dit moeilijk maakt, is het aantal variabelen dat erbij betrokken is. Tokenkosten verschuiven afhankelijk van welke modellen een organisatie gebruikt, waar workloads worden uitgevoerd en hoe prompts zijn gestructureerd.

“Er zijn te veel variabelen in de kosten om intuïtief te beheren”, voegt Sengupta toe. “Het optimaliseren ervan is een technisch probleem, dat voortdurend moet worden afgestemd.”

Agentische workloads leggen de grenzen van de traditionele infrastructuur bloot

Productie-agent AI introduceert een werklastprofiel waarvoor de traditionele bedrijfsinfrastructuur niet is ontworpen. Klassieke datacenterimplementaties zijn opgebouwd rond voorspelbare belastingen en lange planningscycli. Agentische omgevingen produceren onvoorspelbare, hoogfrequente uitbarstingen van korte gevolgtrekkingsverzoeken, stellen nieuwe eisen aan netwerken en opslag en veranderen sneller dan de meeste inkoopcycli toestaan.

De infrastructuur die agentische AI ​​ondersteunt, verschilt ook structureel van CPU-gebaseerd computergebruik. GPU-topologie, snelle verbindingen, parallelle opslagsystemen voor agentgeheugen en KV-cache, en netwerkarchitecturen die DPU-offloading kunnen verwerken vertegenwoordigen allemaal nieuwe mogelijkheden die nieuwe operationele vaardigheden vereisen.

Een geïsoleerde infrastructuur vergroot deze uitdagingen. Wanneer GPU-bronnen, netwerken en gegevenstoegang onafhankelijk worden beheerd, stapelen de planningsinefficiënties zich op, neemt het gebruik af en stijgen de kosten. Organisaties die gefragmenteerde stacks gebruiken, hebben de neiging om dure GPU-middelen te weinig te benutten, terwijl ze tegelijkertijd een knelpunt vormen op het gebied van opslag en netwerkdoorvoer.

Geïntegreerde stacks en argumenten voor full-stack-architectuur

Het antwoord dat onder leveranciers van infrastructuur naar voren komt, is een beweging in de richting van strak geïntegreerde, gevalideerde full-stack-platforms die speciaal zijn ontworpen voor productie-AI-workloads. Het uitgangspunt is dat end-to-end optimalisatie tussen computer-, netwerk-, opslag- en softwarelagen een beter gebruik en lagere kosten per token oplevert dan het samenstellen van de beste componenten van afzonderlijke leveranciers.

De Agentic AI-oplossing van Nutanixvertegenwoordigt één benadering van dit probleem. De oplossing is gebouwd op de Nutanix AHV-hypervisor, Nutanix Enterprise AI en Nutanix Kubernetes Platform en is ontworpen om zowel de traditionele rekenlaag waar agentorkestratie wordt uitgevoerd als de versnelde rekenlaag waar inferentie wordt uitgevoerd te beheren. Het bedrijf heeft NVIDIA-topologiebewuste verbeteringen aan AHV geïntroduceerd die automatisch optimaliseren hoe GPU’s, CPU’s, geheugen en DPU’s worden toegewezen aan virtuele machines, en heeft de Nutanix Flow Virtual Networking overgebracht naar BlueField DPU’s, om GPU-cycli vrij te maken en de doorvoer te behouden zonder de veiligheid in gevaar te brengen.

De oplossing ondersteunt de onmiddellijke implementatie van NVIDIA NIM-microservices en open-sourcemodellen, waaronder Nemotron, en integreert een AI-gateway die de toegang regelt tot frontier cloud LLM’s van Anthropic, Google, OpenAI en anderen. De gateway implementeert ook Model Context Protocol (MCP) zodat agenten verbinding kunnen maken met bedrijfsgegevens met gedetailleerde toegangscontroles. De oplossing draait op de Cisco-infrastructuur, waardoor organisaties kunnen implementeren op de infrastructuur die ze al gebruiken.

“Door alles te integreren, van de AHV-hypervisor en Flow Virtual Networking tot aan het Kubernetes-platform, verwijder je de silo’s die AI-projecten vertragen”, legt Sengupta uit.

Platformteams en ontwikkelaarsflexibiliteit kunnen niet tegen elkaar worden uitgeruild

Een organisatorische spanning die groter wordt naarmate de adoptie van agentische AI ​​toeneemt, is de relatie tussen platformteams die de gedeelde infrastructuur beheren en de ontwikkelaars die daar bovenop agentapplicaties bouwen en uitvoeren. Deze groepen hebben historisch gezien met verschillende instrumenten, verschillende prioriteiten en verschillende tijdshorizonten gewerkt, maar Sengupta stelt dat de kerndynamiek niet is veranderd, zelfs niet zoals de technologie dat heeft gedaan.

“Platformteams zullen een catalogus van self-service AI-mogelijkheden blijven leveren die ook voldoen aan de zakelijke behoeften, en die ze kunnen leveren aan agentische AI-bouwers”, zegt Sengupta. “Volwassen AI-teams zullen geweldig werk leveren, niet alleen op het gebied van GPU-gebruik, maar ook bij het creëren van een operationeel model dat een snelle levering van de AI-infrastructuur mogelijk maakt om te voldoen aan het innovatietempo dat ontwikkelaars willen. Dat is zeer cruciaal voor succes.”

De organisaties die het GPU-gebruik het meest effectief beheren, zijn doorgaans al verder in hun AI-adoptietraject, met meer gevestigde bedrijfsmodellen en een duidelijkere kostenverantwoording. Voor organisaties die zich eerder op dat traject bevinden, zullen de beslissingen over het infrastructuurontwerp en het operationele model die nu worden genomen, bepalen of AI-projecten van pilot naar productie kunnen gaan zonder dat kosten of complexiteit de beperkende factor worden.

Het AI-fabrieksmodel

Het opkomende raamwerk voor de AI-infrastructuur van ondernemingen is de AI-fabriek, een speciaal gebouwde omgeving voor het op schaal produceren en uitvoeren van AI-workloads. De uitdaging is dat de meeste organisaties jarenlang zowel traditioneel als versneld computergebruik tegelijkertijd zullen moeten gebruiken, waardoor een gemeenschappelijk bedrijfsmodel nodig is dat beide technologische paradigma’s omvat zonder dat dit ten koste gaat van de flexibiliteit.

Met Nutanix, draaiend op Cisco als onderdeel van de Cisco AI Pods, aangedreven door Intel en geoptimaliseerd voor de NVIDIA-referentiearchitectuur, krijgen organisaties een productieklare, full-stack basis door ervoor te zorgen dat AI-fabrieken veilig en efficiënt kunnen worden gedeeld door duizenden agenten, om de laagste kosten per token te bereiken. De oplossing overbrugt de kloof tussen de infrastructuur- en platformengineeringteams die de hardware beheren en de AI-engineering- en agentische AI-ontwikkelaarsteams die agentische AI-applicaties bouwen en uitvoeren, waardoor het echt betaalbaar wordt om AI op grote schaal uit te voeren.

“De maatstaven die zullen bepalen of een organisatie haar AI-investeringen kan volhouden en opschalen – kosten per token, GPU-gebruik, planningsefficiëntie – zijn infrastructuurstatistieken”, zegt Sengupta. “Het goed beheren ervan is steeds meer een voorwaarde om AI levensvatbaar te maken, en niet alleen functioneel.”

Beveilig en schaal uw AI-fabriek — Ontdek hier de full-stack-aanpak.


Gesponsorde artikelen zijn inhoud die is geproduceerd door een bedrijf dat voor de post betaalt of een zakelijke relatie heeft met VentureBeat, en deze is altijd duidelijk gemarkeerd. Voor meer informatie kunt u contact opnemen met sales@venturebeat.com.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in