Home Nieuws Nvidia, Groq en de kalksteenrace naar realtime AI: waarom bedrijven hier winnen...

Nvidia, Groq en de kalksteenrace naar realtime AI: waarom bedrijven hier winnen of verliezen

2
0
Nvidia, Groq en de kalksteenrace naar realtime AI: waarom bedrijven hier winnen of verliezen

Van kilometers ver door de woestijn ziet de Grote Piramide eruit als een perfecte, vloeiende geometrie: een slanke driehoek die naar de sterren wijst. Als je echter aan de basis staat, verdwijnt de illusie van gladheid. Je ziet enorme, grillige blokken kalksteen. Het is geen helling; het is een trap.

Onthoud dit de volgende keer dat je futuristen hoort praten over exponentiële groei.

Intel’s mede-oprichter Gordon Moore (de wet van Moore) wordt beroemd geciteerd omdat hij in 1965 zei dat het aantal transistors op een microchip elk jaar zou verdubbelen. Een andere Intel-topman, David House, herzag deze verklaring later om “het rekenvermogen elke 18 maanden te verdubbelen”. Een tijdlang waren de CPU’s van Intel het uithangbord van deze wet. Dat wil zeggen, totdat de groei in CPU-prestaties afvlakte als een blok kalksteen.

Als je echter uitzoomt, was het volgende kalksteenblok er al: de groei in rekenkracht verschoof slechts van CPU’s naar de wereld van GPU’s. Jensen Huang, de CEO van Nvidia, speelde een lange wedstrijd en kwam als sterke winnaar uit de bus. Hij bouwde zijn eigen stapstenen aanvankelijk met gaming, daarna met computervisie en recentelijk met generatieve AI.

De illusie van soepele groei

De technologische groei zit vol sprints en plateaus, en generatie AI is niet immuun. De huidige golf wordt aangedreven door transformatorarchitectuur. Om de president en mede-oprichter van Anthropic, Dario Amodei, te citeren: “Het exponentiële gaat door totdat het niet meer gebeurt. En elk jaar hebben we zoiets gehad van: ‘Nou, dit kan onmogelijk het geval zijn dat de dingen op het exponentiële zullen doorgaan’ – en dan is dat elk jaar het geval.”

Maar net nu de CPU plat is geworden en de GPU’s het voortouw hebben genomen, zien we tekenen dat de LLM-groei de paradigma’s opnieuw verschuift. Eind 2024 verraste DeepSeek bijvoorbeeld de wereld door een model van wereldklasse te trainen met een onmogelijk klein budget, deels door gebruik te maken van de MoE-techniek.

​Weet je nog waar je deze techniek onlangs hebt genoemd? Nvidia’s Rubin-persbericht: De technologie omvat “…de nieuwste generaties Nvidia NVLink-interconnecttechnologie… om agentische AI, geavanceerd redeneren en massale MoE-modelinferentie te versnellen tegen tot 10x lagere kosten per token.”

Jensen weet dat het bereiken van die felbegeerde exponentiële groei in computergebruik niet meer voortkomt uit pure brute kracht. Soms moet je de architectuur helemaal verschuiven om de volgende stap te kunnen zetten.

De latentiecrisis: waar Groq in past

​Deze lange introductie brengt ons bij Groq.

De grootste winst op het gebied van AI-redeneervermogen in 2025 kwam voort uit ‘inference time compute’ – of, in lekentermen, ‘het model langer laten nadenken’. Maar tijd is geld. Consumenten en bedrijven houden niet van wachten.

Groq komt hier in het spel met zijn razendsnelle gevolgtrekking. Als je de architectonische efficiëntie van modellen als DeepSeek en de enorme doorvoer van Groq samenbrengt, krijg je grensverleggende intelligentie binnen handbereik. Door sneller gevolgtrekkingen uit te voeren, kunt u concurrerende modellen ‘overreden’ en klanten een ‘slimmer’ systeem bieden zonder vertraging.

​Van universele chip tot inferentie-optimalisatie

De afgelopen tien jaar is de GPU de universele hamer voor elke AI-spijker geweest. Je gebruikt H100s om het model te trainen; u gebruikt H100s (of ingekorte versies) om het model uit te voeren. Maar naarmate modellen verschuiven naar het ‘Systeem 2’-denken – waarbij de AI redeneert, zichzelf corrigeert en itereert voordat ze antwoord geeft – verandert de rekenwerklast.

​Training vereist enorme parallelle brute kracht. Inferentie, vooral voor redeneermodellen, vereist een snellere sequentiële verwerking. Het moet onmiddellijk tokens genereren om complexe gedachteketens mogelijk te maken zonder dat de gebruiker minuten op een antwoord wacht. De LPU-architectuur (Language Processing Unit) van Groq elimineert het knelpunt in de geheugenbandbreedte waar GPU’s last van hebben tijdens kleine batch-inferentie, waardoor bliksemsnelle inferentie ontstaat.

De motor voor de volgende groeigolf

Voor de C-Suite lost deze potentiële convergentie de latentiecrisis van de ‘denktijd’ op. Houd rekening met de verwachtingen van AI-agenten: we willen dat ze autonoom vluchten boeken, hele apps coderen en juridische precedenten onderzoeken. Om dit betrouwbaar te kunnen doen, moet een model mogelijk 10.000 interne ‘gedachte-tokens’ genereren om zijn eigen werk te verifiëren voordat het ook maar één woord naar de gebruiker stuurt.

  • Op een standaard GPU: 10.000 gedachtefiches kunnen 20 tot 40 seconden duren. De gebruiker verveelt zich en vertrekt.

  • Op Groq: Diezelfde gedachtegang vindt plaats in minder dan 2 seconden.

​Als Nvidia de technologie van Groq integreert, lossen ze het probleem van ‘wachten tot de robot denkt’ op. Ze behouden de magie van AI. Net zoals ze overstapten van het renderen van pixels (gaming) naar het renderen van intelligentie (gen AI), zouden ze nu overstappen op rendering redenering in realtime.

Bovendien creëert dit een formidabele softwaregracht. Groqs grootste hindernis is altijd de softwarestack geweest; Nvidia’s grootste troef is CUDA. Als Nvidia zijn ecosysteem rond de hardware van Groq wikkelt, graven ze in feite een gracht die zo breed is dat concurrenten er niet overheen kunnen. Ze zouden het universele platform bieden: de beste omgeving om te trainen en de meest efficiënte omgeving om te runnen (Groq/LPU).

Bedenk eens wat er gebeurt als je die pure inferentiekracht koppelt aan een open source-model van de volgende generatie (zoals de geruchten over DeepSeek 4): je krijgt een aanbod dat qua kosten, prestaties en snelheid kan wedijveren met de hedendaagse grensmodellen. Dat opent mogelijkheden voor Nvidia, van het rechtstreeks betreden van de inferentie-activiteiten met zijn eigen cloudaanbod, tot het blijven bedienen van een groeiend aantal exponentieel groeiende klanten.

De volgende stap op de piramide

Terugkerend naar onze openingsmetafoor: de ‘exponentiële’ groei van AI is geen vloeiende lijn van ruwe FLOP’s; het is een trap van knelpunten die worden weggenomen.

  • Blok 1: We konden niet snel genoeg rekenen. Oplossing: De GPU.

  • Blok 2: We konden niet diep genoeg trainen. Oplossing: Transformator-architectuur.

  • Blok 3: We kunnen niet snel genoeg ‘denken’. Oplossing: Groq’s LPU.

Jensen Huang is nooit bang geweest om zijn eigen productlijnen te kannibaliseren om de toekomst te bezitten. Door Groq te valideren zou Nvidia niet alleen een snellere chip kopen; ze zouden de intelligentie van de volgende generatie naar de massa brengen.

Andrew Filev, oprichter en CEO van Zencoder

Welkom bij de VentureBeat-community!

In ons gastpostprogramma delen technische experts inzichten en bieden ze neutrale, niet-gevestigde diepgaande inzichten over AI, data-infrastructuur, cyberbeveiliging en andere geavanceerde technologieën die de toekomst van het bedrijfsleven vormgeven.

Lees meer uit ons gastpostprogramma — en bekijk ons richtlijnen als u geïnteresseerd bent om een ​​eigen artikel bij te dragen!

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in