Home Nieuws Google betaalt de Nvidia-belasting niet. De nieuwe TPU’s leggen uit waarom.

Google betaalt de Nvidia-belasting niet. De nieuwe TPU’s leggen uit waarom.

6
0
Google betaalt de Nvidia-belasting niet. De nieuwe TPU’s leggen uit waarom.

Elk grensverleggend AI-lab rantsoeneert momenteel twee dingen: elektriciteit en computergebruik. De meesten van hen kopen hun rekenkracht voor modeltraining bij dezelfde leverancier, tegen de steile brutomarges die Nvidia tot een van de meest waardevolle bedrijven ter wereld hebben gemaakt. Google niet.

Dinsdagavond gaf Google tijdens een besloten bijeenkomst op F1 Plaza in Las Vegas een voorproefje van zijn achtste generatie Tensor Processing Units. Het veld: twee op maat gemaakte siliciumontwerpen die later dit jaar worden verzonden, elk speciaal gebouwd voor een andere helft van de moderne AI-werklast. TPU 8t richt zich op training voor grensmodellen, en TPU 8i richt zich op de lage latentie, geheugenvretende wereld van agentische inferentie en real-time sampling.

Amin Vahdat, Google’s SVP en hoofdtechnoloog voor AI en infrastructuur (linksboven afgebeeld), gebruikte zijn tijd op het podium om een ​​punt naar voren te brengen dat belangrijker is voor zakelijke kopers dan welke individuele specificatie dan ook: Google ontwerpt elke laag van zijn AI-stack end-to-end, en die verticale integratie begint zichtbaar te worden in de kosten-per-token-economie die Google zegt dat zijn rivalen niet kunnen evenaren.

“Eén chip per jaar was niet genoeg”: Inside Google’s weddenschap voor 2024 op een routekaart met twee chips

Het interessantere verhaal achter v8t en v8i is het moment waarop de beslissing werd genomen om de roadmap te splitsen. Volgens Vahdat kwam de oproep in 2024 – een jaar voordat de industrie als geheel zich richtte op redeneermodellen, agenten en versterkend leren als de dominante grenswerklast.

Destijds was het een tegendraadse lectuur. “Twee jaar geleden beseften we dat één chip per jaar niet genoeg zou zijn”, zei Vahdat tijdens de haardvuuravond. “Dit is onze eerste poging om daadwerkelijk met twee superkrachtige, gespecialiseerde chips aan de slag te gaan.”

Voor zakelijke kopers zijn de implicaties concreet. Klanten die finetuning- of grootschalige trainingen uitvoeren op Google Cloud en klanten die productieagenten bedienen Hoekpunt AI hebben dezelfde versnellers gehuurd en de inefficiëntie opgegeten. V8 is de eerste generatie waarbij het silicium deze zelf als verschillende problemen behandelt met twee sets chips.

TPU 8t: een trainingsstof die kan worden opgeschaald naar een miljoen chips

Op papier is TPU 8t een agressieve generatiestap. Volgens Google levert 8t 2,8x zoveel FP4 EFlops per pod (121 versus 42,5) vergeleken met Ironwood, de zevende generatie TPU die in 2025 op de markt kwam, verdubbelt de bidirectionele opschaalbare bandbreedte tot 19,2 Tb/s per chip en verviervoudigt de schaalbare netwerkmogelijkheden tot 400 Gb/s per chip. De grootte van de pods groeit bescheiden van 9.216 naar 9.600 chips, bij elkaar gehouden door de 3D Torus-topologie van Google.

Het getal dat het belangrijkst is voor IT-leiders die evalueren waar ze training op grensschaal moeten geven: 8t-clusters (Superpods) kunnen in één enkele trainingstaak meer dan 1 miljoen TPU-chips schalen via een nieuwe interconnect die Google Virgo-netwerken noemt.

8t introduceert ook TPU Direct Storage, waarmee gegevens van de beheerde opslaglaag van Google rechtstreeks naar HBM worden verplaatst zonder de gebruikelijke CPU-gemedieerde hops. Voor lange trainingsruns waarbij de wandkloktijd de kostenfactor is, vermindert het instorten van dat datapad het aantal pod-uren dat nodig is om elk tijdperk te voltooien.

TPU 8i en Boardfly: het netwerk opnieuw ontwerpen voor agenten

Als 8t een evolutionaire stap is, is TPU 8i de architectonisch interessantere chip. Het is ook waar het verhaal voor IT-kopers het meest overtuigend wordt.

De spec-sprongen op jaarbasis zijn, zoals Vahdat het uitdrukte, ‘verbluffend’. Volgens Google levert 8i 9,8x de FP8 EFlops per pod (11,6 versus 1,2), 6,8x de HBM-capaciteit per pod (331,8 TB versus 49,2), en een podgrootte die 4,5x groeit van 256 naar 1.152 chips.

Wat deze cijfers dreef, is een heroverweging van het netwerk zelf. Vahdat legde het inzicht direct uit: Google’s standaardmanier om chips met elkaar te verbinden ondersteunde bandbreedte boven latentie – goed voor het doorsturen van grote hoeveelheden gegevens, niet gebouwd voor de minimale tijd die nodig is om een ​​reactie terug te krijgen. Dat profiel werkt voor training. Voor agenten geldt dat niet. In samenwerking met Google DeepMind heeft het TPU-team speciaal wat Google Boardfly-topologie noemt gebouwd om de netwerkdiameter te verkleinen – waardoor het aantal hops tussen twee chips in een pod kleiner wordt. In combinatie met een Collective Acceleration Engine en wat Google beschrijft als zeer grote on-chip SRAM, levert 8i een geclaimde 5x verbetering in latentie voor real-time LLM-sampling en versterkingsleren.

De verticale-integratiegracht: waarom Google de “Nvidia-belasting” niet betaalt

De subtekst in de presentatie van Vahdat was een diagram met zes lagen dat Google zijn AI-stack noemt: energie aan de basis, vervolgens datacenterterreinen en behuizingen, AI-infrastructuurhardware, AI-infrastructuursoftware, modellen (Gemini 3) en services daarbovenop. Vahdat merkte op dat het afzonderlijk ontwerpen van elke laag je dwingt tot de kleinste gemene deler voor elke laag. Google ontwerpt ze samen.

Dit is waar het concurrentieverhaal voor IT-kopers en -analisten kristalliseert. OpenAI, Anthropic, xAI en Meta zijn allemaal sterk afhankelijk van Nvidia-silicium om hun grensmodellen te trainen. Elke H200 en Blackwell GPU die ze kopen draagt ​​de brutomarge van Nvidia voor datacenters – de informele ‘Nvidia-belasting’ die brancheanalisten al twee jaar op rij hebben aangemerkt als een structureel kostennadeel voor iedereen die huurt in plaats van ontwerpt. Google betaalt fabrieks-, verpakkings- en engineeringkosten voor zijn TPU’s. Het betaalt die marge niet.

De nieuwe chips van Google

Wat v8 betekent voor de computerrace: een nieuwe evaluatiechecklist voor IT-leiders

Voor inkoop- en infrastructuurteams herformuleert TPUv8 de cloudevaluatie voor 2026-2027 op concrete manieren.

Teams die grote bedrijfseigen modellen trainen, moeten kijken naar 8t-beschikbaarheidsvensters, Virgo-netwerktoegang en goede SLA’s – niet alleen naar de kop van EFlops. Teams die agenten bedienen of workloads redeneren, moeten de beschikbaarheid van 8i op Vertex AI, onafhankelijke latentiebenchmarks evalueren zodra deze zich voordoen, en of de HBM-per-pod-grootte past in hun contextvensters. Teams die Gemini consumeren via Gemini Enterprise zouden de 8i-lift moeten erven en mogen verwachten dat het plafond van wat ze in de productie kunnen inzetten tot 2026 aanzienlijk zal stijgen.

De kanttekeningen zijn reëel. Algemene beschikbaarheid is nog steeds “later in 2026.” De v8 is vandaag de dag een routekaartsignaal en geen aankoopbeslissing. De benchmarks van Google zijn zelfgerapporteerd; Ongetwijfeld zullen er de komende twee kwartalen onafhankelijke cijfers komen van vroege cloudklanten en externe beoordelaars. En portabiliteit tussen JAX/XLA en het CUDA/PyTorch-ecosysteem blijft een frictiekosten die de moeite waard is om over na te denken bij het onderhandelen over een meerjarige verbintenis.

Verder kijkend deed Vahdat twee opmerkelijke voorspellingen. Ten eerste zullen CPU’s voor algemene doeleinden een opleving zien binnen AI-systemen – niet als accelerators, maar als orkestratiecomputing voor agent-sandboxes, virtuele machines en het uitvoeren van tools. Ten tweede, expliciet geformuleerd als een sectorvoorspelling in plaats van een Google-roadmappreview, blijft de specialisatie ook sterk voortduren. Nu CPU’s voor algemeen gebruik met een paar procent per jaar een plateau bereiken, zullen werklasten die er toe doen, speciaal gebouwd silicium vereisen. “Twee chips zouden er meer kunnen worden”, zei Vahdat – zonder te specificeren of het “meer” toekomstige TPU-varianten of andere klassen van gespecialiseerde versnellers zou betekenen.

De grenscomputerrace was vroeger een kwestie van wie de meeste H100’s kon kopen. Het is nu de vraag wie de stapel beheert. De shortlist van bedrijven die dat echt doen, bestaat momenteel uit twee: Google en Nvidia.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in