Jarenlang, AI bedrijven gaven gebruikers onbelemmerde toegang tot de snoepwinkel en moedigden hen aan om tokens, de stukjes tekst die AI leest en schrijft, als feitelijk oneindig te beschouwen.
Tokens werden gebundeld in abonnementen, verborgen achter royale limieten, of zo laag geprijsd dat mensen ze niet meer tellen. Maar nu de kosten van het bedienen van modellen de inkomsten aantasten, en chiptekorten, heliumverstoring en knelpunten in datacenters beperken hoeveel rekenkracht online kan komen, beginnen de grote modelmakers de toegang agressiever te rantsoeneren. All-you-can-eat AI verdwijnt. Nu zijn bedrijven in een wedstrijd verwikkeld om te zien wie het langst de vraag kan blijven subsidiëren, en of degene die het laatst met zijn ogen knippert de markt gaat domineren.
Deze week Meta offline gehaald zijn ‘Claudenomics’-leaderboard, dat werknemers volgde productiviteit met behulp van een ruwe maatstaf van hoeveel AI-tokens ze de afgelopen maand hebben gebruikt. Werknemers gebruikten in één maand meer dan 60 biljoen tokens, wat overeenkomt met ongeveer 80 miljoen exemplaren Oorlog en vredeof de inhoud van 10.000 volledige bibliotheken.
“Toonaangevende ontwikkelaars van grensmodellen zullen te maken krijgen met afwegingen in de manier waarop ze hun computerbronnen gebruiken”, legt Sam Manning uit, senior research fellow bij GovAI, een gemeenschap van onderzoekers die bestuderen hoe AI wordt gebruikt en ingezet. “Het is een zeer consequente beslissing die deze bedrijven moeten nemen.”
Het wereldwijde tekort aan AI-chips, dat waarschijnlijk nog zal worden verergerd door de impact van de oorlog in het Midden-Oosten op helium, een sleutelcomponent in de GPU-productie, samen met een achterstand bij het bouwen van datacenters, betekent dat er slechts een beperkte hoeveelheid hardware is om AI-modellen te trainen en uit te voeren. Als u het trainingsbudget verlaagt, loopt u het risico achterop te raken bij de concurrentie bij het uitbrengen van geavanceerde modellen. Verminder de gevolgtrekking, de snelheid en de schaal waarop u aan de vraag van de klant voldoet, en u frustreert gebruikers.
Verschillende bedrijven hanteren verschillende benaderingen. Eerder deze maand maakte OpenAI dit bekend zou van gebruiker wisselen op zijn Codex-app naar op tokens gebaseerde prijzen, in plaats van per bericht, ongeacht de querygrootte. Dat zou ten goede kunnen komen aan degenen die kleinere taken uitvoeren, maar zou ook de tokenlimiet van een gebruiker snel kunnen opbranden. Het bedrijf beëindigde begin april ook een maandenlang aanbod om de Codex-limieten te verdubbelen.
Rond dezelfde tijd, Antropisch blokkeerde gebruikers van het gebruik van Claude-abonnementen om OpenClaw-agent AI-tools aan te drijven, en ze in plaats daarvan richting API-toegang te duwen. De waarschijnlijke reden was simpel: de vraag. “We hebben hard gewerkt om aan de toenemende vraag naar Claude te voldoen, en onze abonnementen zijn niet gebouwd op de gebruikspatronen van deze tools van derden”, zegt Boris Cherny, directeur van Claude Code, die de verschuiving aankondigt. “Capaciteit is een hulpbron die we zorgvuldig beheren en we geven prioriteit aan het gebruik van onze producten en API door onze klanten.”
De financiële druk is duidelijk. De kosten voor het aanbieden van AI-modellen zijn goed voor meer dan de helft van de totale kosten De inkomsten van OpenAI en Anthropicvolgens interne gegevens verkregen door de Wall Street Journal. “Er is gewoon een enorm consumentensurplus geweest”, zegt Manning. “Een groot deel van de initiële motivatie voor de prijsstelling was het opbouwen van marktaandeel en het verkrijgen van gebruikers op hun platforms. Misschien is het zo dat we daar een soort keerpunt zien.”
De afweging tussen prijs en prestatie beperkt zich niet tot Amerikaanse bedrijven. Het is ook een prioriteit voor de Chinese AI-bedrijven. Zhipu AI, die de GLM-modellen maakt, zag de prijzen van zijn open platform API-tokens begin 2026 met 83% stijgen, en kondigde deze week aan nog een stijging van 8% voor zijn nieuwste modellen.
Volgens onderzoek van JP Morgan weerspiegelen de prijsstijgingen de toenemende vraag. Gebruikers lijken bereid hogere kosten op zich te nemen voor werklasten met een hogere waarde, vooral bij codeer- en agentgerelateerde gebruiksscenario’s. Stijgende prijzen en aanhoudende vraag hervormen de eenheidseconomie voor de Chinese AI-giganten nu al, waarbij de API-brutomarges van Zhipu AI toenemen van 3% in 2024 naar 19% in 2025.
Toch kiest Alibaba voor een andere koers. Het bedrijf heeft zijn Qwen-3.6-model gratis beschikbaar gesteld voor gebruikers via OpenRouter, een coderingsondersteuningssysteem. Gebruikers brandden snel door bijna 1,5 biljoen tokens op één dag.
Dat besluit valt op, maar de logica is duidelijk. Alibaba probeert ontwikkelaars, workloads en langetermijnklanten in de cloud te winnen. Terwijl OpenAI en Anthropic de toegang verscherpen om de schaarse capaciteit te beschermen en de economie van de eenheden te verbeteren, speelt Alibaba een langer spel en absorbeert de kosten in de hoop gebruikers binnen te halen die later misschien moeilijker te winnen zijn.
Alibaba zou ook kunnen profiteren van het feit dat de meeste bedrijven op korte termijn geen compromissen kunnen sluiten op het gebied van de prijs. Prijsdruk blijft onvermijdelijk als de rekenkracht schaars blijft, aldus Manning van GovAI. “We mogen verwachten dat er in de nabije toekomst een dergelijke schaarste aan rekenkracht zal zijn”, zegt hij.


