Home Nieuws Het GPU-probleem van AI is eigenlijk een probleem met de gegevenslevering

Het GPU-probleem van AI is eigenlijk een probleem met de gegevenslevering

1
0
Het GPU-probleem van AI is eigenlijk een probleem met de gegevenslevering

Gepresenteerd door F5


Terwijl bedrijven miljarden investeren in de GPU-infrastructuur voor AI-workloads, ontdekken velen dat hun dure computerbronnen veel vaker inactief zijn dan verwacht. De boosdoener is niet de hardware. Het is de vaak onzichtbare dataleveringslaag tussen opslag en computergebruik die GPU’s berooft van de informatie die ze nodig hebben.

“Hoewel mensen terecht hun aandacht richten op GPU’s, omdat het zeer aanzienlijke investeringen zijn, zijn deze zelden de beperkende factor”, zegt Mark Menger, oplossingsarchitect bij F5. “Ze zijn tot meer werk in staat. Ze wachten op gegevens.”

De prestaties van AI zijn steeds meer afhankelijk van een onafhankelijk, programmeerbaar controlepunt tussen AI-frameworks en objectopslag – een punt dat de meeste ondernemingen niet bewust hebben ontworpen. Naarmate AI-workloads groter worden, ontstaan ​​er knelpunten en instabiliteit wanneer AI-frameworks nauw gekoppeld zijn aan specifieke opslageindpunten tijdens schaalgebeurtenissen, fouten en cloudtransities.

“Traditionele opslagtoegangspatronen zijn niet ontworpen voor zeer parallelle, bursty AI-workloads met meerdere consumenten”, zegt Maggie Stringfellow, VP, productmanagement – BIG-IP. “Efficiënte AI-dataverplaatsing vereist een aparte dataleveringslaag die is ontworpen om datastromen onafhankelijk van opslagsystemen te abstraheren, optimaliseren en beveiligen, omdat GPU-economie inefficiëntie onmiddellijk zichtbaar en duur maakt.”

Waarom AI-workloads de objectopslag overbelasten

Deze bidirectionele patronen omvatten een enorme opname van continue gegevensverzameling, simulatie-uitvoer en modelcontrolepunten. Gecombineerd met leesintensieve training en werklasten afleidenbenadrukken ze de nauw gekoppelde infrastructuur waarop de opslagsystemen afhankelijk zijn.

Hoewel opslagleveranciers aanzienlijk werk hebben verricht bij het opschalen van de gegevensdoorvoer naar en uit hun systemen, zorgt die focus op doorvoer alleen voor domino-effecten op de schakel-, verkeersbeheer- en beveiligingslagen die aan opslag zijn gekoppeld.

De spanning op S3-compatibele systemen van AI-workloads is multidimensionaal en verschilt aanzienlijk van traditionele applicatiepatronen. Het gaat minder om de ruwe doorvoer en meer om gelijktijdigheid, druk op de metagegevens en fan-out-overwegingen. Door training en verfijning ontstaan ​​bijzonder uitdagende patronen, zoals massale parallelle metingen van kleine tot middelgrote objecten. Deze werklasten omvatten ook herhaalde passages door trainingsgegevens over verschillende tijdperken en periodieke checkpoint-schrijfbursts.

RAG-workloads introduceren hun eigen complexiteit door middel van verzoekversterking. Eén enkel verzoek kan uitmonden in tientallen of honderden extra gegevensbrokken, die overgaan in verdere details, gerelateerde brokken en complexere documenten. De stressconcentratie gaat minder over capaciteit, de snelheid van het opslagsysteem, en meer over verzoekbeheer en verkeersvorming.

De risico’s van het nauw koppelen van AI-frameworks aan opslag

Wanneer AI-frameworks rechtstreeks verbinding maken met opslageindpunten zonder een tussenliggende leveringslaag, neemt de operationele kwetsbaarheid snel toe tijdens schaalgebeurtenissen, mislukkingen en cloudtransities, wat grote gevolgen kan hebben.

“Elke instabiliteit in de opslagdienst heeft nu een onbegrensde explosieradius”, zegt Menger. “Alles hier wordt een systeemfout, geen opslagfout. Of eerlijk gezegd kan afwijkend gedrag in één applicatie domino-effecten hebben op alle gebruikers van die opslagdienst.”

Menger beschrijft een patroon dat hij bij drie verschillende klanten heeft gezien, waarbij een nauwe koppeling uitmondde in complete systeemstoringen.

“We zien dat grote trainings- of fine-tuning-workloads de opslaginfrastructuur overbelasten, en dat de opslaginfrastructuur uitvalt”, legt hij uit. “Op die schaal wordt het herstel nooit in seconden gemeten. Minuten als je geluk hebt. Meestal uren. De GPU’s worden nu niet gevoed. Ze hebben een honger naar data. Deze hoogwaardige bronnen, gedurende de hele tijd dat het systeem uitvalt, hebben een negatieve ROI.”

Hoe een onafhankelijke laag voor gegevenslevering het GPU-gebruik en de stabiliteit verbetert

De financiële gevolgen van de introductie van een onafhankelijke laag voor gegevenslevering reiken verder dan het voorkomen van catastrofale mislukkingen.

Door ontkoppeling kan de toegang tot gegevens worden geoptimaliseerd, onafhankelijk van opslaghardware, waardoor het GPU-gebruik wordt verbeterd door de inactieve tijd en conflicten te verminderen, terwijl de voorspelbaarheid van de kosten en de systeemprestaties worden verbeterd naarmate de schaal toeneemt, zegt Stringfellow.

“Het maakt intelligente caching, traffic shaping en protocoloptimalisatie dichter bij de computer mogelijk, waardoor het uitgaand verkeer naar de cloud en de kosten voor opslagversterking worden verlaagd”, legt ze uit. “Operationeel beschermt deze isolatie opslagsystemen tegen onbegrensde AI-toegangspatronen, wat resulteert in een voorspelbaarder kostengedrag en stabiele prestaties onder groei en variabiliteit.”

Met behulp van een programmeerbaar controlepunt tussen rekenkracht en opslag

Het antwoord van F5 is om het te positioneren Platform voor applicatielevering en beveiliging, mogelijk gemaakt door BIG-IPals een “opslagvoordeur” die gezondheidsbewuste routering, hotspotvermijding, beleidshandhaving en beveiligingscontroles biedt zonder dat herschrijving van applicaties nodig is.

“Het introduceren van een leveringslaag tussen rekenkracht en opslag helpt de grenzen van de verantwoordelijkheid te definiëren”, zegt Menger. “Compute gaat over uitvoering. Opslag gaat over duurzaamheid. Levering gaat over betrouwbaarheid.”

Het programmeerbare controlepunt, dat gebruik maakt van op gebeurtenissen gebaseerde, voorwaardelijke logica in plaats van generatieve AI, maakt intelligent verkeersbeheer mogelijk dat verder gaat dan eenvoudige taakverdeling. Routeringsbeslissingen zijn gebaseerd op de echte backend-gezondheid, waarbij gebruik wordt gemaakt van intelligent gezondheidsbewustzijn om vroege tekenen van problemen te detecteren. Dit omvat het monitoren van voorlopende indicatoren van problemen. En als er zich problemen voordoen, kan het systeem slecht functionerende componenten isoleren zonder de hele service uit te schakelen.

“Een onafhankelijke, programmeerbare dataleveringslaag wordt noodzakelijk omdat hierdoor beleid, optimalisatie, beveiliging en verkeerscontrole uniform kunnen worden toegepast op zowel opname- als consumptiepaden, zonder opslagsystemen of AI-frameworks aan te passen”, zegt Stringfellow. “Door datatoegang te ontkoppelen van opslagimplementatie kunnen organisaties veilig bursty writes absorberen, reads optimaliseren en backend-systemen beschermen tegen onbegrensde AI-toegangspatronen.”

Omgaan met beveiligingsproblemen bij de levering van AI-gegevens

AI stimuleert opslagteams niet alleen qua doorvoer, maar dwingt hen ook om het verplaatsen van data te beschouwen als zowel een prestatie- als een beveiligingsprobleem, zegt Stringfellow. Beveiliging kan niet langer worden aangenomen simpelweg omdat de gegevens zich diep in het datacenter bevinden. AI introduceert geautomatiseerde toegangspatronen voor grote volumes die snel moeten worden geverifieerd, gecodeerd en beheerd. Dat is waar F5 BIG-IP in het spel komt.

“F5 BIG-IP zit direct in het AI-datapad om toegang met hoge doorvoer tot objectopslag te bieden, terwijl het beleid wordt gehandhaafd, verkeer wordt geïnspecteerd en op de payload gebaseerde beslissingen over verkeersbeheer worden genomen”, zegt Stringfellow. “Het snel voeden van GPU’s is noodzakelijk, maar niet voldoende; opslagteams hebben nu het vertrouwen nodig dat AI-datastromen geoptimaliseerd, gecontroleerd en veilig zijn.”

Waarom datalevering de schaalbaarheid van AI zal bepalen

Vooruitkijkend zullen de eisen voor datalevering alleen maar toenemen, zegt Stringfellow.

“De levering van AI-data zal verschuiven van bulkoptimalisatie naar realtime, beleidsgestuurde data-orkestratie over gedistribueerde systemen”, zegt ze. “Agentic en RAG-gebaseerde architecturen zullen een fijnmazige runtime-controle vereisen over de latentie, de toegangsomvang en gedelegeerde vertrouwensgrenzen. Bedrijven moeten datalevering gaan behandelen als programmeerbare infrastructuur, en niet als een bijproduct van opslag of netwerken. De organisaties die dit vroeg doen, zullen sneller en met minder risico opschalen.”


Gesponsorde artikelen zijn inhoud die is geproduceerd door een bedrijf dat voor de post betaalt of een zakelijke relatie heeft met VentureBeat, en deze is altijd duidelijk gemarkeerd. Voor meer informatie kunt u contact opnemen met sales@venturebeat.com.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in