Home Nieuws Snel verzenden, later optimaliseren: top AI-ingenieurs geven niets om de kosten; zij...

Snel verzenden, later optimaliseren: top AI-ingenieurs geven niets om de kosten; zij geven prioriteit aan de implementatie

15
0

In alle bedrijfstakken worden stijgende computerkosten vaak genoemd als een barrière AI-adoptie – maar toonaangevende bedrijven komen erachter dat de kosten niet langer de echte beperking vormen. De zwaardere uitdagingen (en de uitdagingen die voor veel technologieleiders bovenaan de agenda staan)? Latency, flexibiliteit en capaciteit. Bij WonderAI voegt bijvoorbeeld slechts een paar cent per bestelling toe; het voedselbezorg- en afhaalbedrijf houdt zich veel meer bezig met cloudcapaciteit met torenhoge eisen. Recursievan zijn kant, is gericht op het balanceren van kleinschalige en grootschalige training en implementatie via lokale clusters en de cloud; dit heeft het biotechbedrijf flexibiliteit geboden voor snelle experimenten. De echte ervaringen van de bedrijven benadrukken een bredere trend in de sector: voor bedrijven die AI op grote schaal gebruiken, is de economie niet de belangrijkste beslissende factor; het gesprek is verschoven van hoe te betalen voor AI naar hoe snel het kan worden ingezet en onderhouden. AI-leiders van de twee bedrijven spraken onlangs met Venturebeat’s CEO en hoofdredacteur Matt Marshall als onderdeel van VB’s reizen AI Impact-serie. Dit is wat ze deelden.

Vraag me af: denk nog eens na over wat je aanneemt over capaciteit

Wonder gebruikt AI om alles aan te sturen, van aanbevelingen tot logistiek – maar tot nu toe, zo meldt CTO James Chen, voegt AI slechts een paar cent per bestelling toe.

Chen legde uit dat de technologiecomponent van een maaltijdbestelling 14 cent kost, de AI voegt er 2 tot 3 cent aan toe, hoewel dat “heel snel stijgt” naar 5 tot 8 cent. Toch lijkt dat vrijwel onbelangrijk vergeleken met de totale bedrijfskosten. In plaats daarvan was de grootste zorg van het 100% cloud-native AI-bedrijf de capaciteit met de groeiende vraag. Wonder werd gebouwd met “de veronderstelling” (wat onjuist bleek te zijn) dat er “onbeperkte capaciteit” zou zijn, zodat ze “supersnel” konden bewegen en zich geen zorgen hoefden te maken over het beheer van de infrastructuur, merkte Chen op. Maar het bedrijf is de afgelopen jaren behoorlijk gegroeid, zei hij; Als gevolg hiervan kregen we ongeveer zes maanden geleden “kleine signalen van de cloudproviders: ‘Hé, misschien moet je overwegen om naar regio twee te gaan'”, omdat ze bijna geen capaciteit meer hadden voor CPU of gegevensopslag in hun faciliteiten naarmate de vraag groeide. Het was “zeer schokkend” dat ze eerder dan verwacht moesten overstappen op plan B. “Het is duidelijk een goede gewoonte om meerdere regio’s te hebben, maar we dachten misschien nog wel twee jaar verder”, zegt Chen.

Wat is economisch (nog) niet haalbaar

Wonder heeft zijn eigen model gebouwd om het conversiepercentage te maximaliseren, merkte Chen op; het doel is om nieuwe restaurants zoveel mogelijk onder de aandacht van relevante klanten te brengen. Dit zijn ‘geïsoleerde scenario’s’ waarin modellen in de loop van de tijd worden getraind om ‘zeer, zeer efficiënt en zeer snel’ te zijn. Momenteel zijn grote modellen de beste keuze voor Wonder’s gebruiksscenario, merkte Chen op. Maar op de lange termijn willen ze graag overstappen op kleine modellen die hyper-aangepast zijn aan individuen (via AI-agenten of conciërges) op basis van hun aankoopgeschiedenis en zelfs hun klikstream. “Het hebben van deze micromodellen is absoluut het beste, maar op dit moment zijn de kosten erg duur”, merkte Chen op. “Als je voor elke persoon een exemplaar probeert te maken, is dat economisch niet haalbaar.”

Budgetteren is een kunst, geen wetenschap

Wonder geeft zijn ontwikkelaars en datawetenschappers zoveel mogelijk speelruimte om te experimenteren, en interne teams beoordelen de gebruikskosten om er zeker van te zijn dat niemand een model heeft ingeschakeld en “enorme rekenkracht heeft opgebouwd rond een enorme rekening”, aldus Chen. Het bedrijf probeert verschillende dingen om aan AI over te dragen en binnen de marges te opereren. ‘Maar dan is het heel moeilijk om een ​​budget te begroten, omdat je geen idee hebt’, zei hij. Een van de uitdagende dingen is het tempo van de ontwikkeling; als er een nieuw model uitkomt, “kunnen we daar niet blijven zitten, toch? We moeten het gebruiken.” Budgetteren voor de onbekende economie van een op tokens gebaseerd systeem is “absoluut kunst versus wetenschap.” Een cruciaal onderdeel in de levenscyclus van softwareontwikkeling is het behouden van de context bij het gebruik van grote native modellen, legt hij uit. Wanneer u iets vindt dat werkt, kunt u het toevoegen aan het “contextcorpus” van uw bedrijf, dat bij elk verzoek kan worden meegestuurd. Dat is groot en het kost elke keer geld. “Meer dan 50%, tot 80% van uw kosten bestaat uit het bij elk verzoek opnieuw versturen van dezelfde informatie naar dezelfde engine”, aldus Chen.

In theorie zou hoe meer ze doen, minder kosten per eenheid nodig zijn. “Ik weet dat wanneer er een transactie plaatsvindt, ik voor elke transactie een belasting van X cent betaal, maar ik wil niet beperkt worden tot het gebruik van de technologie voor al die andere creatieve ideeën.”

Het ‘rechtvaardigingsmoment’ voor Recursion

Recursie heeft zich op zijn beurt gericht op het voldoen aan brede computerbehoeften via een hybride infrastructuur van on-premise clusters en cloud-inferentie. Toen het bedrijf aanvankelijk zijn AI-infrastructuur wilde uitbouwen, moest het voor zijn eigen opzet kiezen, omdat “de cloudproviders niet veel goede aanbiedingen hadden”, legt CTO Ben Mabey uit. “Het moment van rechtvaardiging was dat we meer rekenkracht nodig hadden en we keken naar de cloudproviders en zij zeiden: ‘Misschien over een jaar of zo.’” Het eerste cluster van het bedrijf in 2017 omvatte Nvidia-gaming-GPU’s (1080’s, gelanceerd in 2016); Sindsdien hebben ze Nvidia H100s en A100s toegevoegd en gebruiken ze een Kubernetes-cluster dat ze in de cloud of op locatie draaien. Mabey ging in op de kwestie van de levensduur en merkte op: “Deze gaming-GPU’s worden vandaag de dag nog steeds gebruikt, wat krankzinnig is, toch? De mythe dat de levensduur van een GPU slechts drie jaar bedraagt, is absoluut niet het geval. A100’s staan ​​nog steeds bovenaan de lijst, ze zijn het werkpaard van de industrie.”

Beste gebruiksscenario’s op locatie versus in de cloud; kosten verschillen

Meer recentelijk heeft het team van Mabey een basismodel getraind op de beeldopslagplaats van Recursion (die bestaat uit petabytes aan gegevens en meer dan 200 afbeeldingen). Voor deze en andere soorten grote trainingstaken was een ‘enorme cluster’ en verbonden opstellingen met meerdere knooppunten nodig. “Als we dat volledig verbonden netwerk nodig hebben en toegang tot veel van onze gegevens in een hoog parallel bestandssysteem, gaan we on-prem”, legt hij uit. Aan de andere kant worden kortere werklasten in de cloud uitgevoerd. De methode van Recursion is het ‘vooruitlopen’ op GPU’s en Google tensor processing units (TPU’s), wat het proces is waarbij actieve GPU-taken worden onderbroken om aan taken met een hogere prioriteit te werken. “Omdat we ons niets aantrekken van de snelheid van sommige van deze gevolgtrekkingswerklasten waarbij we biologische gegevens uploaden, of dat nu een afbeelding is of sequentiegegevens, DNA-gegevens”, legt Mabey uit. “We kunnen zeggen: ‘Geef ons dit over een uur’, en we vinden het prima als het de baan doodt.” Vanuit een kostenperspectief is het verplaatsen van grote werklasten naar de locatie “conservatief” tien keer goedkoper, merkte Mabey op; voor een TCO van vijf jaar is dit de helft van de kosten. Aan de andere kant kan de cloud, voor kleinere opslagbehoeften, qua kosten ‘behoorlijk concurrerend’ zijn. Uiteindelijk drong Mabey er bij technologieleiders op aan een stap terug te doen en te bepalen of ze werkelijk bereid zijn zich in te zetten voor AI; kosteneffectieve oplossingen vereisen doorgaans een buy-in over meerdere jaren. “Vanuit een psychologisch perspectief heb ik collega’s van ons gezien die niet in computers willen investeren, en als gevolg daarvan betalen ze altijd op afroep”, zegt Mabey. “Hun teams gebruiken veel minder rekenkracht omdat ze de cloudrekening niet willen laten oplopen. Innovatie wordt echt belemmerd doordat mensen geen geld willen verbranden.”

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in