Home Nieuws Het nieuwe AI Infra-product van ScaleOps verlaagt de GPU-kosten voor zelfgehoste ondernemings-LLM’s...

Het nieuwe AI Infra-product van ScaleOps verlaagt de GPU-kosten voor zelfgehoste ondernemings-LLM’s met 50% voor early adopters

5
0
Het nieuwe AI Infra-product van ScaleOps verlaagt de GPU-kosten voor zelfgehoste ondernemings-LLM’s met 50% voor early adopters

ScaleOps heeft zijn cloud resource management-platform uitgebreid met een nieuw product gericht op ondernemingen die zelfgehoste grote taalmodellen (LLM’s) en GPU-gebaseerde AI-toepassingen gebruiken.

De AI Infra Product vandaag aangekondigdbreidt de bestaande automatiseringsmogelijkheden van het bedrijf uit om tegemoet te komen aan de groeiende behoefte aan efficiënt GPU-gebruik, voorspelbare prestaties en verminderde operationele lasten bij grootschalige AI-implementaties.

Het bedrijf zegt dat het systeem al in bedrijfsproductieomgevingen draait en grote efficiëntiewinsten oplevert voor early adopters, waardoor de GPU-kosten met tussen de 50% en 70% worden verlaagd, aldus het bedrijf. Het bedrijf maakt de bedrijfsprijzen voor deze oplossing niet openbaar en nodigt in plaats daarvan geïnteresseerde klanten uit om een ​​offerte op maat te ontvangen op basis van de omvang en behoeften van hun bedrijf hier.

Bij het uitleggen hoe het systeem zich gedraagt ​​onder zware belasting, zei Yodar Shafrir, CEO en medeoprichter van ScaleOps, in een e-mail aan VentureBeat dat het platform “proactieve en reactieve mechanismen gebruikt om plotselinge pieken op te vangen zonder impact op de prestaties”, waarbij hij opmerkte dat het beleid voor het aanpassen van de werklast “automatisch de capaciteit beheert om bronnen beschikbaar te houden.”

Hij voegde eraan toe dat het minimaliseren van GPU-vertragingen bij koude start een prioriteit was, waarbij hij benadrukte dat het systeem “onmiddellijke reactie garandeert wanneer het verkeer toeneemt”, vooral voor AI-workloads waarbij de laadtijden van modellen aanzienlijk zijn.

Uitbreiding van resourceautomatisering naar AI-infrastructuur

Bedrijven die zelfgehoste AI-modellen inzetten, worden geconfronteerd met prestatievariaties, lange laadtijden en aanhoudend ondergebruik van GPU-bronnen. ScaleOps positioneerde het nieuwe AI Infra-product als een direct antwoord op deze problemen.

Het platform wijst GPU-bronnen in realtime toe en schaalt het en past zich aan veranderingen in de verkeersvraag aan zonder dat er wijzigingen nodig zijn aan bestaande modelimplementatiepijplijnen of applicatiecode.

Volgens ScaleOps beheert het systeem productieomgevingen voor organisaties als Wiz, DocuSign, Rubrik, Coupa, Alkami, Vantor, Grubhub, Island, Chewy en verschillende Fortune 500-bedrijven.

Het AI Infra-product introduceert werklastbewust schaalbeleid dat de capaciteit proactief en reactief aanpast om de prestaties op peil te houden tijdens pieken in de vraag. Het bedrijf verklaarde dat dit beleid de vertragingen bij de koude start vermindert die gepaard gaan met het laden van grote AI-modellen, wat de responsiviteit verbetert wanneer het verkeer toeneemt.

Technische integratie en platformcompatibiliteit

Het product is ontworpen voor compatibiliteit met algemene bedrijfsinfrastructuurpatronen. Het werkt op alle Kubernetes-distributies, grote cloudplatforms, on-premises datacenters en air-gapped-omgevingen. ScaleOps benadrukte dat de implementatie geen codewijzigingen, herschrijvingen van de infrastructuur of aanpassingen aan bestaande manifesten vereist.

Shafrir zei dat het platform “naadloos integreert in bestaande modelimplementatiepijplijnen zonder dat er code- of infrastructuurwijzigingen nodig zijn”, en hij voegde eraan toe dat teams onmiddellijk kunnen beginnen met optimaliseren met hun bestaande GitOps-, CI/CD-, monitoring- en implementatietools.

Shafrir ging ook in op de manier waarop de automatisering samenwerkt met bestaande systemen. Hij zei dat het platform werkt zonder de workflows te verstoren of conflicten te creëren met aangepaste plannings- of schaallogica. Hij legt uit dat het systeem “de manifesten of de implementatielogica niet verandert” en in plaats daarvan planners, autoscalers en aangepast beleid verbetert door realtime operationele context op te nemen, terwijl de bestaande configuratiegrenzen worden gerespecteerd.

Prestaties, zichtbaarheid en gebruikerscontrole

Het platform biedt volledig inzicht in GPU-gebruik, modelgedrag, prestatiestatistieken en schaalbeslissingen op meerdere niveaus, waaronder pods, workloads, knooppunten en clusters. Hoewel het systeem standaardbeleid voor het schalen van de werklast toepast, merkte ScaleOps op dat technische teams de mogelijkheid behouden om dit beleid indien nodig af te stemmen.

In de praktijk streeft het bedrijf ernaar de handmatige afstemming die DevOps- en AIOps-teams doorgaans uitvoeren om AI-workloads te beheren, te verminderen of te elimineren. Het is de bedoeling dat de installatie minimale inspanning vergt, door ScaleOps beschreven als een proces van twee minuten met behulp van een enkele roervlag, waarna optimalisatie via een enkele actie mogelijk kan worden gemaakt.

Kostenbesparingen en casestudy’s voor ondernemingen

ScaleOps meldde dat vroege implementaties van het AI Infra-product GPU-kostenbesparingen van 50-70% in klantomgevingen hebben opgeleverd. Het bedrijf noemde twee voorbeelden:

  • Een groot creatief softwarebedrijf dat duizenden GPU’s exploiteerde, had een gemiddeld gebruik van 20% voordat het ScaleOps adopteerde. Het product verhoogde het gebruik, consolideerde de onderbenutte capaciteit en zorgde ervoor dat GPU-nodes konden worden teruggeschroefd. Deze veranderingen hebben de totale GPU-uitgaven met meer dan de helft verminderd. Het bedrijf rapporteerde ook een vermindering van 35% in de latentie voor belangrijke werklasten.

  • Een wereldwijd gamingbedrijf gebruikte het platform om een ​​dynamische LLM-werklast op honderden GPU’s te optimaliseren. Volgens ScaleOps verhoogde het product het gebruik met een factor zeven, terwijl de prestaties op serviceniveau behouden bleven. De klant verwachtte alleen al door deze werklast een jaarlijkse besparing van $1,4 miljoen.

ScaleOps verklaarde dat de verwachte GPU-besparingen doorgaans groter zijn dan de kosten van het adopteren en exploiteren van het platform, en dat klanten met beperkte infrastructuurbudgetten een snel rendement op hun investering hebben gerapporteerd.

Sectorcontext en bedrijfsperspectief

De snelle acceptatie van zelf-gehoste AI-modellen heeft voor nieuwe operationele uitdagingen voor bedrijven gezorgd, met name op het gebied van GPU-efficiëntie en de complexiteit van het beheer van grootschalige werklasten. Shafrir beschreef het bredere landschap als een landschap waarin “de cloud-native AI-infrastructuur een breekpunt bereikt.”

“Cloud-native architecturen ontsloten grote flexibiliteit en controle, maar introduceerden ook een nieuw niveau van complexiteit”, zei hij in de aankondiging. “Het op grote schaal beheren van GPU-bronnen is chaotisch geworden: verspilling, prestatieproblemen en torenhoge kosten zijn nu de norm. Het ScaleOps-platform is gebouwd om dit op te lossen. Het levert de complete oplossing voor het beheren en optimaliseren van GPU-bronnen in cloud-native omgevingen, waardoor bedrijven LLM’s en AI-applicaties efficiënt en kosteneffectief kunnen uitvoeren en tegelijkertijd de prestaties kunnen verbeteren.”

Shafrir voegde eraan toe dat het product de volledige set cloudresourcebeheerfuncties samenbrengt die nodig zijn om diverse workloads op schaal te beheren. Het bedrijf positioneerde het platform als een holistisch systeem voor continue, geautomatiseerde optimalisatie.

Een uniforme aanpak voor de toekomst

Met de toevoeging van het AI Infra Product wil ScaleOps een uniforme aanpak voor GPU- en AI-workloadbeheer tot stand brengen die kan worden geïntegreerd met de bestaande bedrijfsinfrastructuur.

De vroege prestatiestatistieken van het platform en de gerapporteerde kostenbesparingen suggereren een focus op meetbare efficiëntieverbeteringen binnen het groeiende ecosysteem van zelfgehoste AI-implementaties.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in