Home Nieuws Nvidia heeft zojuist toegegeven dat het GPU-tijdperk voor algemene doeleinden ten einde...

Nvidia heeft zojuist toegegeven dat het GPU-tijdperk voor algemene doeleinden ten einde is

2
0
Nvidia heeft zojuist toegegeven dat het GPU-tijdperk voor algemene doeleinden ten einde is

Nvidia’s strategische licentieovereenkomst ter waarde van 20 miljard dollar met Groq vertegenwoordigt een van de eerste duidelijke stappen in een gevecht op vier fronten over de toekomstige AI-stack. In 2026 wordt die strijd duidelijk voor ondernemers.

Voor de technische besluitvormers waarmee we elke dag praten – de mensen die de AI-applicaties bouwen en de datapijplijnen die deze aansturen – is deze deal een signaal dat het tijdperk van de one-size-fits-all GPU als standaard AI-inferentie-antwoord ten einde loopt.

We betreden het tijdperk van de gedesaggregeerde inferentiearchitectuurwaar het silicium zelf in twee verschillende typen wordt gesplitst om tegemoet te komen aan een wereld die zowel een enorme context als onmiddellijke redenering vereist.

Waarom gevolgtrekking de GPU-architectuur in tweeën breekt

Om te begrijpen waarom Nvidia-CEO Jensen Huang een derde van zijn aandelen liet vallen rapporteerde een geldstapel van $60 miljard Bij een licentieovereenkomst moet je kijken naar de existentiële bedreigingen die naar voren komen in de rapporten van zijn bedrijf 92% marktaandeel.

De industrie bereikte eind 2025 een omslagpunt: voor het eerst werd gevolgtrekking – de fase waarin getrainde modellen daadwerkelijk draaien – overtrof training in termen van totale datacenterinkomstenaldus Deloitte. In deze nieuwe ‘Inference Flip’ zijn de statistieken veranderd. Hoewel nauwkeurigheid het uitgangspunt blijft, wordt de strijd nu gevoerd over de latentie en het vermogen om de ‘status’ van autonome agenten te behouden.

Er zijn vier fronten in die strijd, en elk front wijst op dezelfde conclusie: de workloads van gevolgtrekkingen fragmenteren sneller dan GPU’s kunnen generaliseren.

1. De GPU in tweeën delen: vooraf invullen versus decoderen

Gavin Baker, een investeerder in Groq (en daarom bevooroordeeld, maar ook buitengewoon vloeiend in de architectuur), samengevat de kern van de Groq-deal is duidelijk: “Inferentie is het opsplitsen in vooraf invullen en decoderen.”

Voorvullen En decoderen zijn twee verschillende fasen:

  • De voorvulfase: Beschouw dit als de ‘prompt’-fase van de gebruiker. Het model moet enorme hoeveelheden gegevens verwerken (of het nu gaat om een ​​codebase van 100.000 regels of een uur aan video) en een contextueel begrip berekenen. Dit is ‘rekengebonden’ en vereist een enorme matrixvermenigvuldiging waar Nvidia’s GPU’s historisch gezien uitstekend in zijn.

  • De generatie- (decodeer) fase: Dit is de feitelijke token-voor-token ‘generatie’. Zodra de prompt is opgenomen, genereert het model één woord (of token) tegelijk, en voert elk woord (of token) terug in het systeem om het volgende te voorspellen. Dit is “geheugenbandbreedte gebonden”. Als de gegevens niet snel genoeg van het geheugen naar de processor kunnen worden verplaatst, stottert het model, hoe krachtig de GPU ook is. (Dit is waar Nvidia zwak was, en waar Groq’s speciale taalverwerkingseenheid (LPU) en het bijbehorende SRAM-geheugen uitblinkt. Daarover later meer.)

Nvidia heeft kondigde een aanstaande aan Vera Rubin familie van chips dat het specifiek aan het ontwerpen is om deze splitsing aan te pakken. De Rubin CPX Een onderdeel van deze familie is het aangewezen “prefill”-werkpaard, geoptimaliseerd voor enorme contextvensters van 1 miljoen tokens of meer. Om op een betaalbare manier met deze schaal om te kunnen gaan, neemt het afstand van de oogverblindende kosten van geheugen met hoge bandbreedte (HBM) – Nvidia’s huidige gouden standaardgeheugen dat direct naast de GPU-chip zit – en in plaats daarvan 128 GB aan nieuw soort geheugen gebruikt, GDDR7. Hoewel HBM extreme snelheid biedt (hoewel niet zo snel als Groq’s statische willekeurig toegankelijke geheugen (SRAM)), is het aanbod op GPU’s beperkt en vormen de kosten een schaalbarrière; GDDR7 biedt een kosteneffectievere manier om enorme datasets op te nemen.

Ondertussen zal het silicium met ‘Groq-smaak’, dat Nvidia integreert in zijn routekaart voor gevolgtrekkingen, dienen als de snelle ‘decodeer’-engine. Dit gaat over het neutraliseren van een dreiging van alternatieve architecturen zoals de TPU’s van Google en het behouden van de dominantie daarvan CUDA, Het software-ecosysteem van Nvidia dat al meer dan tien jaar als belangrijkste gracht fungeert.

Dit alles was genoeg voor Baker, de Groq-investeerder, om te voorspellen dat Nvidia’s stap om Groq in licentie te geven ervoor zal zorgen dat alle andere gespecialiseerde AI-chips zullen worden geannuleerd – dat wil zeggen, buiten Google’s TPU, Tesla’s AI5 en AWS’s Trainium.

2. De gedifferentieerde kracht van SRAM

De kern van de technologie van Groq is SRAM. In tegenstelling tot de DRAM in uw pc of de HBM op een Nvidia H100 GPU, wordt SRAM rechtstreeks in de logica van de processor geëtst.

Michael Stewart, managing partner van het durffonds van Microsoft, M12, beschrijft SRAM als het beste voor het verplaatsen van gegevens over korte afstanden met minimale energie. “De energie om een ​​beetje te bewegen in SRAM is ongeveer 0,1 picojoule of minder”, zei Stewart. “Het verplaatsen tussen DRAM en de processor is twintig tot honderd keer erger.”

In de wereld van 2026, waar agenten in realtime moeten redeneren, fungeert SRAM als het ultieme ‘kladblok’: een snelle werkruimte waar het model symbolische bewerkingen en complexe redeneerprocessen kan manipuleren zonder de ‘verspilde cycli’ van het pendelen van extern geheugen.

SRAM heeft echter een groot nadeel: het is fysiek omvangrijk en duur om te produceren, wat betekent dat de capaciteit beperkt is in vergelijking met DRAM. Dit is waar Val Bercovici, chief AI officer bij Weka, een ander bedrijf dat geheugen voor GPU’s aanbiedt, de marktsegmentatie ziet.

Groq-vriendelijke AI-workloads – waarbij SRAM het voordeel heeft – zijn degenen die kleine modellen van 8 miljard parameters en lager gebruiken, zei Bercovici. Dit is echter geen kleine markt. “Het is gewoon een gigantisch marktsegment dat niet door Nvidia werd bediend, namelijk edge-inferentie, lage latentie, robotica, spraak en IoT-apparaten – dingen die we op onze telefoons willen laten draaien zonder de cloud voor gemak, prestaties of privacy”, zei hij.

Deze 8B ‘sweet spot’ is belangrijk omdat er in 2025 een explosie plaatsvond modeldistillatiewaar veel grote bedrijven zijn het verkleinen van enorme modellen tot zeer efficiënte kleinere versies. Hoewel SRAM niet praktisch is voor de ‘frontier’-modellen met biljoen parameters, is het perfect voor deze kleinere modellen met hoge snelheid.

3. De antropische dreiging: de opkomst van de ‘portable stack’

Misschien wel de meest ondergewaardeerde drijfveer van deze deal is het succes van Anthropic bij het draagbaar maken van zijn stack via accelerators.

Het bedrijf heeft pionierde met een draagbare technische aanpak voor training en gevolgtrekking – in feite een softwarelaag waarmee de Claude-modellen over meerdere AI-acceleratorfamilies kunnen draaien – inclusief Nvidia’s GPU’s en Ironwood TPU’s van Google. Tot voor kort werd de dominantie van Nvidia beschermd omdat het draaien van krachtige modellen buiten de Nvidia-stack een technische nachtmerrie was. “Het is antropisch,” vertelde Bercovici van Weka me. “Het feit dat Anthropic in staat was om… een softwarestack op te bouwen die zowel op TPU’s als op GPU’s zou kunnen werken, denk ik niet dat dit voldoende gewaardeerd wordt op de markt.”

(Openbaarmaking: Weka is sponsor geweest van VentureBeat-evenementen.)

Anthropic heeft onlangs toegezegd toegang te krijgen tot 1 miljoen TPU’s van Google, wat neerkomt op meer dan een gigawatt aan rekencapaciteit. Deze multi-platform aanpak zorgt ervoor dat het bedrijf niet gegijzeld wordt door Nvidia’s prijs- of aanbodbeperkingen. Dus voor Nvidia is de Groq-deal net zo goed een defensieve zet. Door de ultrasnelle inferentie-IP van Groq te integreren, zorgt Nvidia ervoor dat de meest prestatiegevoelige workloads – zoals die met kleine modellen of als onderdeel van real-time agents – kunnen worden ondergebracht binnen Nvidia’s CUDA-ecosysteem, zelfs als concurrenten proberen over te stappen naar Google’s Ironwood TPU’s. CUDA is de speciale software die Nvidia aan ontwikkelaars levert om GPU’s te integreren.

4. De agentische ‘staatsoorlog’: Manus en de KV Cache

De timing van deze Groq-deal valt samen met Meta’s overname van de agentenpionier Manus nog maar twee dagen geleden. De betekenis van Manus was deels zijn obsessie ermee statelijkheid.

Als een agent zich niet meer kan herinneren wat hij tien stappen geleden heeft gedaan, is hij nutteloos voor echte taken zoals marktonderzoek of softwareontwikkeling. KV-cache (sleutelwaardecache) is het “kortetermijngeheugen” dat een LLM opbouwt tijdens de prefill-fase.

Manus gerapporteerd dat voor agenten van productiekwaliteit, de verhouding tussen invoertokens en uitvoertokens kan 100:1 bereiken. Dit betekent dat voor elk woord dat een agent zegt, hij 100 anderen ‘denkt’ en ‘onthoudt’. In deze omgeving is het aantal KV Cache-hits de belangrijkste maatstaf voor een productieagent, zei Manus. Als die cache uit het geheugen wordt ‘verwijderd’, verliest de agent zijn gedachtegang en moet het model enorme energie verbranden om de prompt opnieuw te berekenen.

Groq’s SRAM kan een “klusje” zijn voor deze agenten – hoewel, nogmaals, meestal voor kleinere modellen – omdat het het vrijwel onmiddellijk ophalen van die status mogelijk maakt. Gecombineerd met Nvidia’s Dynamo kader en de KVBM bouwt Nvidia een “inferentiebesturingssysteem” dat deze status kan overbrengen naar SRAM, DRAM en andere op flash gebaseerde aanbiedingen zoals die van Bercovici’s Weka.

Thomas Jorgensen, senior directeur Technology Enablement bij Supermicro, gespecialiseerd in het bouwen van clusters van GPU’s voor grote ondernemingen, vertelde me in september dat rekenkracht niet langer het voornaamste knelpunt is voor geavanceerde clusters. Het invoeren van gegevens naar GPU’s was het knelpunt, en om dat knelpunt te doorbreken is geheugen nodig.

“Het hele cluster is nu de computer”, zei Jorgensen. “Netwerken worden een intern onderdeel van het beest… het voeden van het beest met data wordt steeds moeilijker omdat de bandbreedte tussen GPU’s sneller groeit dan wat dan ook.”

Dit is de reden waarom Nvidia tot gedesaggregeerde gevolgtrekkingen overgaat. Door de werklasten te scheiden, kunnen bedrijfsapplicaties gespecialiseerde opslaglagen gebruiken om gegevens met prestaties van geheugenklasse te voeden, terwijl het gespecialiseerde “Groq-inside” silicium de snelle tokengeneratie afhandelt.

Het oordeel voor 2026

We betreden een tijdperk van extreme specialisatie. Decennia lang konden de gevestigde exploitanten winnen door één dominante architectuur voor algemeen gebruik naar voren te brengen – en hun blinde vlek was vaak wat ze aan de randen negeerden. Intels langdurige verwaarlozing van energiezuinigheid is het klassieke voorbeeld, vertelde Michael Stewart, managing partner van Microsofts durffonds M12, mij. Nvidia geeft aan dat het deze fout niet zal herhalen. “Als zelfs de leider, zelfs de leeuw van de jungle talent zal verwerven, technologie zal verwerven – is dat een teken dat de hele markt gewoon meer opties wil”, zei Stewart.

Voor technische leiders is de boodschap: stop met het ontwerpen van uw stapel alsof het één rack, één accelerator, één antwoord is. In 2026 zal het voordeel gaan naar de teams die werklasten expliciet labelen – en deze naar het juiste niveau leiden:

  • prefill-zwaar versus decode-zwaar

  • lange context versus korte context

  • interactief versus batch

  • klein model versus groot model

  • randbeperkingen versus datacenteraannames

Jouw architectuur zal deze labels volgen. In 2026 is de ‘GPU-strategie’ niet langer een aankoopbeslissing, maar een routeringsbeslissing. De winnaars zullen niet vragen welke chip ze hebben gekocht; ze zullen vragen waar elk token naartoe is gegaan en waarom.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in