Al meer dan tien jaar doen de GPU’s van Nvidia dat vormde de basis voor bijna elke grote vooruitgang in moderne AI. Dat standpunt wordt nu betwist.
Frontier-modellen zoals Google’s Gemini 3 en Anthropic’s Claude 4.5 Opus werden niet getraind op Nvidia-hardware, maar op Google’s nieuwste Tensor Processing Units, de op Ironwood gebaseerde TPUv7. Dit geeft aan dat er al een levensvatbaar alternatief voor de GPU-centrische AI-stack is gearriveerd – een alternatief met reële implicaties voor de economie en architectuur van training op grensniveau.
Nvidia’s CUDA (Compute Unified Device Architecture), het platform dat toegang biedt tot de enorme parallelle architectuur van de GPU, en de omliggende tools hebben gecreëerd wat velen de “CUDA-gracht” hebben genoemd; Zodra een team pipelines op CUDA heeft gebouwd, is het overstappen naar een ander platform onbetaalbaar vanwege de afhankelijkheid van de softwarestack van Nvidia. Dit, gecombineerd met het pioniersvoordeel van Nvidia, hielp het bedrijf een duizelingwekkende 75% bruto marge.
In tegenstelling tot GPU’s zijn TPU’s vanaf dag één ontworpen als speciaal gebouwd silicium voor machinaal leren. Met elke generatie is Google verder gegaan in grootschalige AI-versnelling, maar nu de hardware achter twee van de meest capabele AI-modellen ooit is getraind, signaleert TPUv7 een bredere strategie om de dominantie van Nvidia uit te dagen.
GPU’s en TPU’s versnellen beide het leren van machines, maar weerspiegelen verschillende ontwerpfilosofieën: GPU’s zijn parallelle processors voor algemene doeleinden, terwijl TPU’s speciaal gebouwde systemen zijn die vrijwel uitsluitend zijn geoptimaliseerd voor grootschalige matrixvermenigvuldiging. Met TPUv7 heeft Google die specialisatie verder gestimuleerd door hogesnelheidsverbindingen rechtstreeks in de chip te integreren, waardoor TPU-pods kunnen worden geschaald als een enkele supercomputer en de kosten en latentieboetes die doorgaans gepaard gaan met GPU-gebaseerde clusters worden verminderd.
TPU’s zijn “ontworpen als een compleet ‘systeem’ in plaats van alleen maar een chip”, zegt Val Bercovici, Chief AI Officer bij WEKAvertelde VentureBeat.
De commerciële spil van Google van intern naar sectorbreed
Historisch gezien beperkte Google de toegang tot TPU’s uitsluitend via cloud verhuur op het Google Cloud Platform. De afgelopen maanden is Google begonnen de hardware rechtstreeks aan externe klanten aan te bieden, waardoor de chip feitelijk wordt losgekoppeld van de clouddienst. Klanten kunnen kiezen tussen het behandelen van rekenkracht als bedrijfskosten door via de cloud te huren, of als kapitaaluitgaven (het rechtstreeks kopen van hardware), waardoor een groot wrijvingspunt wordt weggenomen voor grote AI-laboratoria die er de voorkeur aan geven hun eigen hardware te bezitten en de ‘cloudhuur’-premie voor de basishardware effectief wordt omzeild.
Het middelpunt van de strategiewijziging van Google is een mijlpaalovereenkomst met Anthropicwaar de maker van Claude 4.5 Opus toegang krijgt tot maximaal 1 miljoen TPUv7-chips – meer dan een gigawatt aan rekencapaciteit. Via Broadcom, de fysieke ontwerppartner van Google, worden ongeveer 400.000 chips rechtstreeks aan Anthropic verkocht. De resterende 600.000 chips worden geleased via traditionele Google Cloud-contracten. De inzet van Anthropic voegt miljarden dollars toe aan de bedrijfsresultaten van Google en vergrendelt een van de belangrijkste concurrenten van OpenAI in het ecosysteem van Google.
Het eroderen van de “CUDA-gracht”
De GPU’s van Nvidia zijn al jaren de duidelijke marktleider op het gebied van AI-infrastructuur. Naast de krachtige hardware beschikt Nvidia’s CUDA-ecosysteem over een enorme bibliotheek met geoptimaliseerde kernels en frameworks. Gecombineerd met de brede bekendheid van ontwikkelaars en een enorme geïnstalleerde basis raakten bedrijven geleidelijk gevangen in de ‘CUDA-gracht’, een structurele barrière die het onpraktisch duur maakte om een op GPU gebaseerde infrastructuur op te geven.
Een van de belangrijkste obstakels die een bredere adoptie van TPU verhinderen, is de wrijving in het ecosysteem. In het verleden werkten TPU’s het beste met JAX, Google’s eigen numerieke computerbibliotheek die is ontworpen voor AI/ML-onderzoek. De reguliere AI-ontwikkeling is echter voornamelijk afhankelijk van PyTorch, een open-source ML-framework dat kan worden afgestemd op CUDA.
Google pakt dit gat nu direct aan. TPUv7 ondersteunt native PyTorch-integratie, inclusief gretige uitvoeringvolledige ondersteuning voor gedistribueerde API’s, torch.compile en aangepaste TPU-kernelondersteuning onder de toolchain van PyTorch. Het doel is dat PyTorch net zo gemakkelijk op TPU’s draait als op Nvidia GPU’s.
Google draagt daar ook zwaar aan bij vLLM En SGLangtwee populaire open-source inferentieframeworks. Door deze veelgebruikte tools voor TPU te optimaliseren, zorgt Google ervoor dat ontwikkelaars van hardware kunnen wisselen zonder hun hele codebase te herschrijven.
Voor- en nadelen van TPU’s versus GPU’s
Voor bedrijven die TPU’s en GPU’s vergelijken voor grootschalige ML-workloads, liggen de voordelen vooral op het gebied van kosten, prestaties en schaalbaarheid. SemiAnalysis heeft onlangs een diepe duik het afwegen van de voor- en nadelen van de twee technologieën, het meten van de kostenefficiëntie en de technische prestaties.
Dankzij de gespecialiseerde architectuur en grotere energie-efficiëntie biedt TPUv7 een aanzienlijk betere doorvoer per dollar voor grootschalige training en gevolgtrekking op grote volumes. Hierdoor kunnen ondernemingen de operationele kosten met betrekking tot stroom, koeling en datacenterbronnen verlagen. SemiAnalysis schat dat voor de interne systemen van Google de totale eigendomskosten (TCO) voor een op Ironwood gebaseerde server ongeveer 44% lager zijn dan de TCO voor een gelijkwaardige Nvidia GB200 Blackwell-server. Zelfs als we rekening houden met de winstmarges voor zowel Google als Broadcom, zien externe klanten zoals Anthropic een kostenbesparing van ~30% vergeleken met Nvidia. “Als de kosten van cruciaal belang zijn, zijn TPU’s zinvol voor AI-projecten op grote schaal. Met TPU’s kunnen hyperscalers en AI-laboratoria een TCO-reductie van 30 tot 50% realiseren, wat zich zou kunnen vertalen in miljarden aan besparingen”, aldus Bercovici.
Deze economische invloed hervormt de markt al. Alleen al het bestaan van een haalbaar alternatief maakte OpenAI mogelijk onderhandel over een korting van ~30% op zijn eigen Nvidia-hardware. OpenAI is een van de grootste afnemers van Nvidia GPU’s, maar maakte eerder dit jaar het bedrijf bekend Google TPU’s toegevoegd via Google Cloud om de groeiende computerbehoeften te ondersteunen. Meta is naar verluidt ook in vergevorderde discussies Google TPU’s aanschaffen voor zijn datacenters.
In dit stadium lijkt het misschien alsof Ironwood de ideale oplossing is voor bedrijfsarchitectuur, maar er zijn een aantal afwegingen. Hoewel TPU’s uitblinken in specifieke deep learning-workloads, zijn ze veel minder flexibel dan GPU’s, die een breed scala aan algoritmen kunnen uitvoeren, inclusief niet-AI-taken. Als er morgen een nieuwe AI-techniek wordt uitgevonden, zal een GPU deze meteen uitvoeren. Dit maakt GPU’s geschikter voor organisaties die een breed scala aan computerworkloads uitvoeren die verder gaan dan standaard deep learning.
Migratie vanuit een GPU-centrische omgeving kan ook duur en tijdrovend zijn, vooral voor teams met bestaande op CUDA gebaseerde pijplijnen, aangepaste GPU-kernels of die gebruikmaken van raamwerken die nog niet zijn geoptimaliseerd voor TPU’s.
Bercovici beveelt bedrijven aan “voor GPU’s te kiezen wanneer ze snel en op tijd moeten kunnen reageren op marktkwesties. GPU’s maken gebruik van de standaardinfrastructuur en het grootste ontwikkelaarsecosysteem, verwerken dynamische en complexe workloads waarvoor TPU’s niet zijn geoptimaliseerd, en kunnen worden ingezet in bestaande on-premises, op standaarden gebaseerde datacenters zonder dat aangepaste stroomvoorziening en herbouw van netwerken nodig is.”
Bovendien betekent de alomtegenwoordigheid van GPU’s dat er meer technisch talent beschikbaar is. TPU’s vereisen een zeldzame vaardigheden. “Om de kracht van TPU’s te kunnen benutten, moet een organisatie over technische diepgang beschikken, wat betekent dat ze het zeldzame technische talent moeten kunnen werven en behouden dat aangepaste kernels kan schrijven en compilers kan optimaliseren”, aldus Bercovici.
In de praktijk kunnen de voordelen van Ironwood vooral worden gerealiseerd voor ondernemingen met grote, tensor-zware werklasten. Organisaties die een bredere hardwareflexibiliteit, hybride cloudstrategieën of HPC-achtige veelzijdigheid nodig hebben, vinden GPU’s wellicht beter geschikt. In veel gevallen kan een hybride aanpak die deze twee combineert de beste balans tussen specialisatie en flexibiliteit bieden.
De toekomst van AI-architectuur
De concurrentie om de dominantie van AI-hardware wordt steeds heftiger, maar het is nog veel te vroeg om een winnaar te voorspellen – en of er überhaupt wel een winnaar zal zijn. Nu Nvidia en Google zo snel innoveren en bedrijven zoals Amazon Door zich bij de strijd aan te sluiten, zouden de best presterende AI-systemen van de toekomst hybride kunnen zijn, waarbij zowel TPU’s als GPU’s worden geïntegreerd.
“Google Cloud ervaart een toenemende vraag naar zowel onze aangepaste TPU’s als Nvidia GPU’s”, vertelde een woordvoerder van Google aan VentureBeat. “Als gevolg hiervan breiden we ons Nvidia GPU-aanbod aanzienlijk uit om aan de substantiële vraag van klanten te voldoen. De realiteit is dat de meerderheid van onze Google Cloud-klanten zowel GPU’s als TPU’s gebruikt. Met onze brede selectie van de nieuwste Nvidia GPU’s en zeven generaties aangepaste TPU’s bieden we klanten de flexibiliteit om te kiezen voor optimalisatie voor hun specifieke behoeften.”



