Elk GPU-cluster heeft dode tijd. Trainingstaken zijn voltooid, de werklast verschuift en de hardware blijft donker terwijl de stroom- en koelingskosten blijven lopen. Voor neocloud-operators zijn die lege cycli verloren marge.
De voor de hand liggende oplossing is spot-GPU-markten: het verhuren van reservecapaciteit aan iedereen die het nodig heeft. Maar spot-instances betekenen dat de cloudleverancier nog steeds degene is die de huur doet, en dat ingenieurs die die capaciteit kopen nog steeds betalen voor onbewerkte rekenkracht zonder dat er een gevolgtrekking aan is gekoppeld.
Het antwoord van FriendliAI is anders: voer gevolgtrekkingen rechtstreeks uit op de ongebruikte hardware, optimaliseer de tokendoorvoer en deel de inkomsten met de operator. FriendliAI is opgericht door Byung-Gon Chun, de onderzoeker wiens artikel over continu batchen de basis werd voor vLLM, de open source inferentie-engine die tegenwoordig in de meeste productie-implementaties wordt gebruikt.
Chun heeft ruim tien jaar als hoogleraar aan de Seoul National University onderzoek gedaan naar de efficiënte uitvoering van machine learning-modellen op grote schaal. Dat onderzoek leverde een artikel op met de naam Orkadie continue batching introduceerde. De techniek verwerkt gevolgtrekkingsverzoeken dynamisch in plaats van te wachten tot een vaste batch is gevuld voordat deze wordt uitgevoerd. Het is nu de industriestandaard en vormt het kernmechanisme binnen vLLM.
Deze week lanceert FriendliAI een nieuw platform genaamd InferenceSense. Net zoals uitgevers Google AdSense gebruiken om geld te verdienen met onverkochte advertentievoorraad, kunnen neocloud-operators InferenceSense gebruiken om ongebruikte GPU-cycli te vullen met betaalde AI-inferentie-workloads en een deel van de token-inkomsten te innen. De eigen taken van de operator hebben altijd voorrang: zodra een planner een GPU terugwint, geeft InferenceSense resultaat.
“Wat we bieden is dat in plaats van GPU’s inactief te laten, ze door gevolgtrekkingen geld te verdienen met die inactieve GPU’s”, vertelde Chun aan VentureBeat.
Hoe een laboratorium van de Seoul National University de motor in vLLM bouwde
Chun richtte FriendliAI op in 2021, voordat het grootste deel van de industrie de aandacht had verlegd van training naar gevolgtrekking. Het belangrijkste product van het bedrijf is een speciale eindpuntservice voor AI-startups en ondernemingen die open-weight-modellen gebruiken. FriendliAI verschijnt ook als implementatieoptie op Hugging Face naast Azure, AWS en GCP, en ondersteunt momenteel meer dan 500.000 open-weight-modellen van het platform.
InferenceSense breidt die inferentie-engine nu uit naar het capaciteitsprobleem waarmee GPU-operators tussen workloads worden geconfronteerd.
Hoe het werkt
InferenceSense draait bovenop Kubernetes, dat de meeste neocloud-operators al gebruiken voor resource-orkestratie. Een operator wijst een pool van GPU’s toe aan een Kubernetes-cluster dat wordt beheerd door FriendliAI, waarbij wordt aangegeven welke knooppunten beschikbaar zijn en onder welke voorwaarden ze kunnen worden teruggevorderd. Inactieve detectie loopt via Kubernetes zelf.
“We hebben onze eigen orkestrator die draait op de GPU’s van deze neocloud- of gewoon cloud-leveranciers,” zei Chun. “We profiteren zeker van Kubernetes, maar de software die erbovenop draait is een zeer geoptimaliseerde inferentiestapel.”
Wanneer GPU’s niet worden gebruikt, draait InferenceSense geïsoleerde containers op die betaalde inferentiewerklasten leveren op open-weight-modellen, waaronder DeepSeek, Qwen, Kimi, GLM en MiniMax. Wanneer de planner van de operator hardware terug nodig heeft, worden de gevolgtrekkingswerklasten ondervangen en worden GPU’s geretourneerd. FriendliAI zegt dat de overdracht binnen enkele seconden plaatsvindt.
De vraag wordt verzameld via de directe klanten van FriendliAI en via aggregators voor gevolgtrekkingen zoals OpenRouter. De exploitant levert de capaciteit; FriendliAI verzorgt de vraagpijplijn, modeloptimalisatie en serveerstapel. Er zijn geen kosten vooraf en geen minimale verplichtingen. Een realtime dashboard laat operators zien welke modellen actief zijn, tokens worden verwerkt en inkomsten worden gegenereerd.
Waarom tokendoorvoer de verhuur van onbewerkte capaciteit overtreft
Spot GPU-markten van providers als CoreWeave, Lambda Labs en RunPod betrekken de cloudleverancier die zijn eigen hardware verhuurt aan een derde partij. InferenceSense draait op hardware die de neocloud-operator al bezit, waarbij de operator bepaalt welke knooppunten deelnemen en vooraf planningsovereenkomsten met FriendliAI maakt. Het onderscheid is van belang: spotmarkten genereren inkomsten uit capaciteit, InferenceSense genereert inkomsten uit tokens.
Tokendoorvoer per GPU-uur bepaalt hoeveel InferenceSense daadwerkelijk kan verdienen tijdens ongebruikte vensters. FriendliAI beweert dat de engine twee tot drie keer de doorvoer levert van een standaard vLLM-implementatie, hoewel Chun opmerkt dat dit cijfer verschilt per type werklast. De meeste concurrerende inferentiestapels zijn gebouwd op op Python gebaseerde open source-frameworks. De engine van FriendliAI is geschreven in C++ en gebruikt aangepaste GPU-kernels in plaats van de cuDNN-bibliotheek van Nvidia. Het bedrijf heeft zijn eigen modelrepresentatielaag gebouwd voor het partitioneren en uitvoeren van modellen over hardware heen, met zijn eigen implementaties van speculatieve decodering, kwantisering en KV-cachebeheer.
Omdat de engine van FriendliAI meer tokens per GPU-uur verwerkt dan een standaard vLLM-stack, zouden operators meer inkomsten per ongebruikte cyclus moeten genereren dan ze zouden kunnen door hun eigen inferentiedienst op te zetten.
Waar AI-ingenieurs die inferentiekosten evalueren, op moeten letten
Voor AI-ingenieurs die evalueren waar de inferentieworkloads moeten worden uitgevoerd, komt de beslissing tussen neocloud en hyperscaler doorgaans neer op prijs en beschikbaarheid.
InferenceSense voegt een nieuwe overweging toe: als neoclouds door inferentie geld kunnen verdienen met niet-gebruikte capaciteit, hebben ze meer economische prikkels om tokenprijzen concurrerend te houden.
Dat is geen reden om vandaag de dag de infrastructuurbeslissingen te veranderen; het is nog vroeg. Maar ingenieurs die de totale inferentiekosten bijhouden, moeten in de gaten houden of de adoptie van platforms als InferenceSense door de neocloud een neerwaartse druk uitoefent op de API-prijzen voor modellen als DeepSeek en Qwen in de komende twaalf maanden. “Als we efficiëntere leveranciers hebben, zullen de totale kosten dalen”, zei Chun. “Met InferenceSense kunnen we eraan bijdragen om die modellen goedkoper te maken.”



