Home Nieuws De kosten voor AI-inferentie zijn tot tien keer gedaald op Nvidia’s Blackwell,...

De kosten voor AI-inferentie zijn tot tien keer gedaald op Nvidia’s Blackwell, maar hardware is slechts de helft van het verhaal

3
0
De kosten voor AI-inferentie zijn tot tien keer gedaald op Nvidia’s Blackwell, maar hardware is slechts de helft van het verhaal

Het verlagen van de kosten van inferentie is doorgaans een combinatie van hardware en software. Een nieuwe analyse die donderdag door Nvidia is vrijgegeven, beschrijft hoe vier toonaangevende aanbieders van inferentie een 4x tot 10x verlaging van de kosten per token rapporteren.

De dramatische kostenbesparingen werden bereikt met behulp van Nvidia’s Blackwell-platform met open-sourcemodellen. Gegevens over de productie-implementatie van Baseten, DeepInfra, Fireworks AI en Together AI laten aanzienlijke kostenverbeteringen zien in de gezondheidszorg, gaming, agentic chat en klantenservice, nu bedrijven AI opschalen van proefprojecten naar miljoenen gebruikers.

De 4x tot 10x kostenbesparingen gerapporteerd door leveranciers van inferentie vereisten het combineren van Blackwell-hardware met twee andere elementen: geoptimaliseerde softwarestacks en het overschakelen van propriëtaire naar open-sourcemodellen die nu overeenkomen met intelligentie op grensniveau. Hardwareverbeteringen alleen al leverden volgens de analyse bij sommige implementaties een dubbele winst op. Om grotere kostenbesparingen te realiseren, was het nodig om formaten met lage precisie, zoals NVFP4, te gebruiken en af ​​te stappen van gesloten source-API’s die hogere tarieven in rekening brengen.

De economie blijkt contra-intuïtief. Het verlagen van de gevolgtrekkingskosten vereist investeringen in een infrastructuur met hogere prestaties, omdat doorvoerverbeteringen zich direct vertalen in lagere kosten per token.

“Prestaties zijn wat de kosten van inferentie verlaagt”, vertelde Dion Harris, senior director van HPC en AI hyperscaler-oplossingen bij Nvidia, aan VentureBeat in een exclusief interview. “Wat we hieruit concluderen is dat de doorvoer zich letterlijk vertaalt in echte dollarwaarde, waardoor de kosten omlaag gaan.”

Productie-implementaties laten 4x tot 10x kostenbesparingen zien

Nvidia heeft in een blogpost vier klantimplementaties gedetailleerd beschreven, waarin wordt getoond hoe de combinatie van Blackwell-infrastructuur, geoptimaliseerde softwarestacks en open-sourcemodellen kostenbesparingen oplevert voor verschillende industriële werklasten. De casestudy’s bestrijken toepassingen met een hoog volume waarbij inferentie-economie rechtstreeks de levensvatbaarheid van het bedrijf bepaalt.

Volgens Nvidia heeft Sully.ai de kosten voor AI-inferentie in de gezondheidszorg met 90% verlaagd (een 10x reductie), terwijl de responstijden met 65% zijn verbeterd door over te schakelen van eigen modellen naar open-sourcemodellen die draaien op het Blackwell-platform van Baseten. Het bedrijf gaf artsen meer dan 30 miljoen minuten terug door het automatiseren van medische codering en het maken van aantekeningen, waarvoor voorheen handmatige gegevensinvoer nodig was.

Nvidia meldde ook dat Latitude de kosten voor gaming-inferentie voor zijn AI Dungeon-platform vier keer heeft verlaagd door grote mix-of-experts (MoE)-modellen uit te voeren op DeepInfra’s Blackwell-implementatie. De kosten per miljoen tokens daalden van 20 cent op Nvidia’s vorige Hopper-platform naar 10 cent op Blackwell en vervolgens naar 5 cent na het adopteren van Blackwell’s eigen NVFP4-formaat met lage precisie. Hardware alleen al leverde een verbetering van twee keer op, maar voor het bereiken van vier keer was een nauwkeurige formaatwijziging nodig.

Sentient Foundation behaalde volgens Nvidia een 25% tot 50% betere kostenefficiëntie voor zijn agentic chatplatform met behulp van Fireworks AI’s Blackwell-geoptimaliseerde inferentiestapel. Het platform orkestreert complexe multi-agentworkflows en verwerkte 5,6 miljoen vragen in één week tijdens de virale lancering, terwijl de latentie laag bleef.

Nvidia zei dat Decagon een zesvoudige kostenbesparing per vraag zag voor AI-aangedreven spraakklantenondersteuning door zijn multimodellenstack op Together AI’s Blackwell-infrastructuur te draaien. De responstijden bleven onder de 400 milliseconden, zelfs bij het verwerken van duizenden tokens per zoekopdracht, wat van cruciaal belang is voor spraakinteracties waarbij vertragingen ervoor zorgen dat gebruikers ophangen of het vertrouwen verliezen.

Technische factoren die 4x versus 10x verbeteringen aandrijven

Het bereik van 4x tot 10x kostenbesparingen bij implementaties weerspiegelt verschillende combinaties van technische optimalisaties in plaats van alleen maar hardwareverschillen. Drie factoren komen naar voren als primaire drijfveren: adoptie van precisieformaten, keuzes voor modelarchitectuur en integratie van softwarestacks.

Precisieformaten laten de duidelijkste impact zien. Het geval van Latitude laat dit direct zien. De overstap van Hopper naar Blackwell leverde een tweevoudige kostenbesparing op dankzij hardwareverbeteringen. Door het gebruik van NVFP4, Blackwells native lage-precisieformaat, werd die verbetering verdubbeld tot 4x in totaal. NVFP4 vermindert het aantal bits dat nodig is om modelgewichten en activeringen weer te geven, waardoor meer berekeningen per GPU-cyclus mogelijk zijn terwijl de nauwkeurigheid behouden blijft. Het formaat werkt bijzonder goed voor MoE-modellen waarbij slechts een subset van het model wordt geactiveerd voor elk gevolgtrekkingsverzoek.

Modelarchitectuur is belangrijk. MoE-modellen, die verschillende gespecialiseerde submodellen activeren op basis van input, profiteren van Blackwell’s NVLink-fabric die snelle communicatie tussen experts mogelijk maakt. “Door deze experts via dat NVLink-weefsel te laten communiceren, kun je heel snel redeneren”, zei Harris. Dichte modellen die alle parameters voor elke gevolgtrekking activeren, maken niet zo effectief gebruik van deze architectuur.

Integratie van softwarestacks creëert extra prestatiedelta’s. Harris zei dat de co-designaanpak van Nvidia – waarbij Blackwell-hardware, NVL72-scale-up-architectuur en software zoals Dynamo en TensorRT-LLM samen worden geoptimaliseerd – ook een verschil maakt. Baseten’s implementatie voor Sully.ai maakte gebruik van deze geïntegreerde stack, waarbij NVFP4, TensorRT-LLM en Dynamo werden gecombineerd om de kostenbesparing van 10x te realiseren. Providers die alternatieve raamwerken zoals vLLM gebruiken, kunnen mogelijk lagere winsten boeken.

Kenmerken van de werklast zijn van belang. Redeneringsmodellen vertonen bijzondere voordelen op Blackwell omdat ze aanzienlijk meer tokens genereren om tot betere antwoorden te komen. Het vermogen van het platform om deze uitgebreide tokenreeksen efficiënt te verwerken via gedesaggregeerde weergave, waarbij het vooraf invullen van de context en het genereren van tokens afzonderlijk worden afgehandeld, maakt redeneringswerklasten kosteneffectief.

Teams die potentiële kostenbesparingen evalueren, moeten hun werklastprofielen aan deze factoren toetsen. Hoge werklasten voor het genereren van tokens met behulp van mix-of-experts-modellen met de geïntegreerde Blackwell-softwarestack zullen het bereik van 10x benaderen. Lagere tokenvolumes die compacte modellen op alternatieve raamwerken gebruiken, zullen dichter bij 4x terechtkomen.

Wat teams moeten testen voordat ze migreren

Hoewel deze casestudy’s zich richten op Nvidia Blackwell-implementaties, hebben bedrijven meerdere mogelijkheden om de gevolgtrekkingskosten te verlagen. AMD’s MI300-serie, Google TPU’s en gespecialiseerde inferentieversnellers van Groq en Cerebras bieden alternatieve architecturen. Cloudproviders blijven ook hun inferentiediensten optimaliseren. De vraag is niet of Blackwell de enige optie is, maar of de specifieke combinatie van hardware, software en modellen voldoet aan bepaalde werklastvereisten.

Bedrijven die op Blackwell gebaseerde inferentie overwegen, moeten beginnen met berekenen of hun werklast veranderingen in de infrastructuur rechtvaardigt.

“Bedrijven moeten terugwerken aan hun werklast en gebruiksscenario’s en kostenbeperkingen”, zegt Shruti Koparkar, AI-productmarketing bij Nvidia, tegen VentureBeat.

De implementaties die verbeteringen van zes tot tien keer opleverden, hadden allemaal betrekking op latentiegevoelige applicaties met een hoog volume die maandelijks miljoenen verzoeken verwerkten. Teams die lagere volumes of applicaties draaien met een latentiebudget van meer dan één seconde moeten software-optimalisatie of modelwisseling onderzoeken voordat ze infrastructuurupgrades overwegen.

Testen is belangrijker dan specificaties van leveranciers. Koparkar benadrukt dat providers doorvoer- en latentiestatistieken publiceren, maar dat dit ideale omstandigheden zijn.

“Als het een zeer latentiegevoelige werklast is, willen ze misschien een paar providers testen en zien wie aan het minimum voldoet dat ze nodig hebben, terwijl ze de kosten laag houden”, zei ze. Teams moeten daadwerkelijke productieworkloads uitvoeren bij meerdere Blackwell-providers om de echte prestaties te meten onder hun specifieke gebruikspatronen en verkeerspieken, in plaats van te vertrouwen op gepubliceerde benchmarks.

De gefaseerde aanpak die Latitude gebruikt, biedt een model voor evaluatie. Het bedrijf stapte eerst over op Blackwell-hardware en mat een 2x verbetering, waarna het het NVFP4-formaat adopteerde om een ​​4x totale reductie te bereiken. Teams die zich momenteel op Hopper of een andere infrastructuur bevinden, kunnen testen of nauwkeurige formaatwijzigingen en software-optimalisatie op bestaande hardware zinvolle besparingen opleveren voordat ze zich engageren voor volledige infrastructuurmigraties. Het draaien van open source-modellen op de huidige infrastructuur zou zonder nieuwe hardware-investeringen de helft van de potentiële kostenbesparing kunnen opleveren.

Selectie van providers vereist inzicht in de verschillen in de softwarestack. Hoewel meerdere providers de Blackwell-infrastructuur aanbieden, variëren hun software-implementaties. Sommigen gebruiken de geïntegreerde stack van Nvidia met Dynamo en TensorRT-LLM, terwijl anderen frameworks zoals vLLM gebruiken. Harris erkent dat er prestatiedelta’s bestaan ​​tussen deze configuraties. Teams moeten evalueren wat elke provider daadwerkelijk uitvoert en hoe dit aansluit bij hun werklastvereisten, in plaats van aan te nemen dat alle Blackwell-implementaties identiek presteren.

De economische vergelijking gaat verder dan de kosten per token. Gespecialiseerde inferentieproviders zoals Baseten, DeepInfra, Fireworks en Together bieden geoptimaliseerde implementaties, maar vereisen het beheer van aanvullende leveranciersrelaties. Beheerde services van AWS, Azure of Google Cloud kunnen hogere kosten per token hebben, maar een lagere operationele complexiteit. Teams moeten de totale kosten berekenen, inclusief operationele overhead, en niet alleen gevolgtrekkingsprijzen, om te bepalen welke aanpak voor hun specifieke situatie betere economische resultaten oplevert.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in