Home Nieuws Het voorwaardelijke geheugen van DeepSeek corrigeert stille LLM-verspilling: GPU-cycli verloren door statische...

Het voorwaardelijke geheugen van DeepSeek corrigeert stille LLM-verspilling: GPU-cycli verloren door statische zoekopdrachten

1
0
Het voorwaardelijke geheugen van DeepSeek corrigeert stille LLM-verspilling: GPU-cycli verloren door statische zoekopdrachten

Wanneer een ondernemings-LLM een productnaam, technische specificatie of standaardcontractclausule ophaalt, gebruikt deze dure GPU-berekeningen die zijn ontworpen voor complexe redeneringen – alleen maar om toegang te krijgen tot statische informatie. Dit gebeurt miljoenen keren per dag. Elke zoekopdracht verspilt cycli en verhoogt de infrastructuurkosten.

DeepSeek’s nieuw uitgebracht onderzoek naar “voorwaardelijk geheugen” pakt deze architecturale beperking rechtstreeks aan. Het werk introduceert Engram, een module die het ophalen van statische patronen scheidt van dynamisch redeneren. Het levert resultaten op die aannames uitdagen over waar geheugen eigenlijk voor dient in neurale netwerken. Het artikel is mede-auteur van Diepzoeken oprichter Liang Wenfeng.

Door middel van systematische experimenten vond DeepSeek de optimale balans tussen berekeningen en geheugen, waarbij 75% van de schaarse modelcapaciteit werd toegewezen aan dynamisch redeneren en 25% aan statische zoekopdrachten. Dit geheugensysteem verbeterde het redeneren meer dan het ophalen van kennis.

Benchmarks voor complex redeneren zijn van 70% naar 74% nauwkeuriger geworden, terwijl kennisgerichte tests zijn verbeterd van 57% naar 61%. Deze verbeteringen kwamen voort uit tests als Big-Bench Hard, ARC-Challenge en MMLU.

Het onderzoek komt er nu bedrijven geconfronteerd worden met toenemende druk om capabelere AI-systemen in te zetten en tegelijkertijd om te gaan met GPU-geheugenbeperkingen en infrastructuurkosten. De aanpak van DeepSeek biedt een potentieel pad voorwaarts door fundamenteel te heroverwegen hoe modellen moeten worden gestructureerd.

Hoe voorwaardelijk geheugen een ander probleem oplost dan agentisch geheugen en RAG

Agentische geheugensystemen, ook wel contextueel geheugen genoemd Achteraf gezien, MemoOSof Memp – focus op episodisch geheugen. Ze slaan gegevens op van eerdere gesprekken, gebruikersvoorkeuren en interactiegeschiedenis. Deze systemen helpen agenten de context tijdens sessies te behouden en van ervaringen te leren. Maar ze staan ​​buiten de voorwaartse beweging van het model en optimaliseren niet de manier waarop het model intern statische taalpatronen verwerkt.

Voor Chris Latimer, oprichter en CEO van Vectorize, die Hindsight ontwikkelde, lost de voorwaardelijke geheugenbenadering die in Engram wordt gebruikt een ander probleem op dan agentisch AI-geheugen.

“Het lost het probleem van het verbinden van agenten met extern geheugen, zoals gespreksgeschiedenissen en kennisopslagplaatsen, niet op”, vertelde Latimer aan VentureBeat. “Het is er meer op gericht om de prestaties uit kleinere modellen te halen en meer kilometers te halen uit schaarse GPU-bronnen.”

Voorwaardelijk geheugen pakt een fundamenteel probleem aan: Transformers missen een primitieve kennisopzoekfunctie. Bij het verwerken van tekst moeten ze het ophalen van statische patronen simuleren door middel van dure neurale berekeningen over meerdere lagen. Deze patronen omvatten benoemde entiteiten, technische terminologie en algemene zinsneden.

Het DeepSeek-artikel illustreert dit met een concreet voorbeeld. Het herkennen van “Diana, prinses van Wales” vereist het verbruiken van meerdere aandachtslagen en feed-forward-netwerken om geleidelijk kenmerken samen te stellen. Het model maakt in wezen gebruik van diepe, dynamische logische circuits om een ​​eenvoudige hashtabel-opzoekopdracht uit te voeren. Het is alsof u een rekenmachine gebruikt om uw telefoonnummer te onthouden in plaats van het alleen maar op te zoeken.

“Het probleem is dat Transformer geen mogelijkheid heeft om ‘native kennis op te zoeken'”, schrijven de onderzoekers. “Veel taken die in O(1) tijd moeten worden opgelost, zoals het ophalen, moeten worden ‘gesimuleerd voor ophalen’ door middel van een grote hoeveelheid berekeningen, wat erg inefficiënt is.”

Hoe voorwaardelijk geheugen werkt

Engram introduceert “voorwaardelijk geheugen” om naast de voorwaardelijke berekening van MoE te werken.

Het mechanisme is eenvoudig. De module neemt reeksen van twee tot drie tokens en gebruikt hash-functies om ze op te zoeken in een enorme inbeddingstabel. Het ophalen gebeurt in een constante tijd, ongeacht de tabelgrootte.

Maar opgehaalde patronen moeten worden gefilterd. Een hash-zoekopdracht voor ‘Apple’ kan botsen met niet-gerelateerde inhoud, of het woord kan de vrucht betekenen in plaats van het bedrijf. Engram lost dit op met een poortmechanisme. Het huidige begrip van de context van het model (verzameld via eerdere aandachtslagen) fungeert als een filter. Als het opgehaalde geheugen de huidige context tegenspreekt, onderdrukt de poort deze. Als het past, laat het hek het door.

De module wordt niet op elke laag aangebracht. Strategische plaatsing balanceert prestatiewinst tegen systeemlatentie.

Dit ontwerp met twee systemen roept een kritische vraag op: hoeveel capaciteit moet elk systeem krijgen? De belangrijkste bevinding van DeepSeek: de optimale verdeling is 75-80% voor berekeningen en 20-25% voor geheugen. Uit tests bleek dat pure MoE (100% berekening) suboptimaal bleek. Te veel berekeningen verspillen diepte bij het reconstrueren van statische patronen; te veel geheugen verliest het redeneervermogen.

Infrastructuurefficiëntie: de GPU-geheugenbypass

Misschien wel de meest pragmatische bijdrage van Engram is het infrastructuurbewuste ontwerp. In tegenstelling tot de dynamische routering van MoE, die afhankelijk is van verborgen toestanden tijdens de runtime, zijn de ophaalindexen van Engram uitsluitend afhankelijk van invoertokenreeksen. Deze deterministische aard maakt een prefetch-and-overlap-strategie mogelijk.

“De uitdaging is dat het GPU-geheugen beperkt en duur is, waardoor het gebruik van grotere modellen kostbaar en moeilijker te implementeren wordt”, aldus Latimer. “Het slimme idee achter Engram is om het hoofdmodel op de GPU te houden, maar een groot deel van de opgeslagen informatie van het model over te zetten naar een apart geheugen op regulier RAM, dat het model just-in-time kan gebruiken.”

Tijdens de inferentie kan het systeem via PCIe asynchroon insluitingen ophalen uit het CPU-geheugen van de host. Dit gebeurt terwijl de GPU voorgaande transformatorblokken berekent. Strategische plaatsing van lagen maakt gebruik van de berekening van vroege lagen als buffer om de latentie van communicatie te maskeren.

De onderzoekers demonstreerden dit met een inbeddingstabel met 100B-parameters die volledig werd overgebracht naar DRAM. Ze behaalden doorvoerboetes van minder dan 3%. Deze ontkoppeling van opslag en rekenkracht lost een kritieke beperking voor ondernemingen op, aangezien GPU-geheugen met hoge bandbreedte duur en schaars blijft.

Wat dit betekent voor de AI-implementatie in ondernemingen

Voor ondernemingen die AI-infrastructuurstrategieën evalueren, suggereren de bevindingen van DeepSeek verschillende bruikbare inzichten:

1. Hybride architecturen presteren beter dan pure benaderingen. De 75/25-allocatiewet geeft aan dat optimale modellen de schaarse capaciteit moeten verdelen tussen rekenkracht en geheugen.

2. Infrastructuurkosten kunnen verschuiven van GPU naar geheugen. Als architecturen in Engram-stijl levensvatbaar blijken te zijn in de productie, kunnen de investeringspatronen in de infrastructuur veranderen. De mogelijkheid om meer dan 100 miljard parameters in het CPU-geheugen op te slaan met minimale overhead suggereert dat geheugenrijke, rekenmatige configuraties betere prestaties per dollar kunnen bieden dan pure GPU-schaling.

3. Verbeteringen in het redeneren overtreffen de kenniswinst. De verrassende bevinding dat redeneren meer voordelen biedt dan het ophalen van kennis suggereert dat de waarde van het geheugen verder reikt dan voor de hand liggende gebruiksscenario’s.

Voor bedrijven die de adoptie van AI leiden, laat Engram zien dat de volgende grens wellicht niet simpelweg grotere modellen zijn. Het zijn slimmere architecturale keuzes die het fundamentele onderscheid tussen statische kennis en dynamisch redeneren respecteren. Het onderzoek suggereert dat optimale AI-systemen steeds meer op hybride architecturen zullen gaan lijken.

Organisaties die wachten op de adoptie van AI later in de cyclus moeten in de gaten houden of grote modelaanbieders principes van voorwaardelijk geheugen in hun architecturen opnemen. Als de 75/25-allocatiewet geldt voor alle schalen en domeinen, kan de volgende generatie funderingsmodellen substantieel betere redeneerprestaties opleveren tegen lagere infrastructuurkosten.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in