Home Nieuws DeepSeek publiceert nieuwe AI-trainingsmethode om LLM’s gemakkelijker te schalen

DeepSeek publiceert nieuwe AI-trainingsmethode om LLM’s gemakkelijker te schalen

1
0
DeepSeek publiceert nieuwe AI-trainingsmethode om LLM’s gemakkelijker te schalen

DeepSeek zette het jaar op gang met een nieuw idee voor het trainen van AI. En analisten zeggen dat dit een enorme impact op de sector kan hebben.

De Chinese AI-startup publiceerde woensdag een onderzoekspaper waarin een methode wordt beschreven om grote taalmodellen te trainen die “de evolutie van fundamentele modellen” zouden kunnen vormgeven.

Het artikel, mede geschreven door oprichter Liang Wenfeng, introduceert wat DeepSeek ‘Manifold-Constrained Hyper-Connections’ of mHC noemt, een trainingsaanpak die is ontworpen om modellen te schalen zonder dat ze instabiel worden of helemaal kapot gaan.

Naarmate taalmodellen groeien, proberen onderzoekers vaak de prestaties te verbeteren door verschillende delen van een model intern meer informatie te laten delen. Dit vergroot echter het risico dat de informatie instabiel wordt, aldus de krant.

Het nieuwste onderzoek van DeepSeek stelt modellen in staat om rijkere interne communicatie op een beperkte manier te delen, waardoor de trainingsstabiliteit en rekenefficiëntie behouden blijven, zelfs als modellen schalen, voegde het eraan toe.

De nieuwe methode van DeepSeek is een ‘opvallende doorbraak’

Wei Sun, hoofdanalist voor AI bij Counterpoint Research, vertelde vrijdag aan Business Insider dat de aanpak een ‘opvallende doorbraak’ is.

DeepSeek combineerde verschillende technieken om de extra kosten voor het trainen van een model te minimaliseren, zei Sun. Ze voegde eraan toe dat de nieuwe trainingsmethode zelfs met een kleine stijging van de kosten veel betere prestaties zou kunnen opleveren.

Sun zei dat de krant leest als een verklaring van de interne capaciteiten van DeepSeek. Door de trainingsstack van begin tot eind opnieuw te ontwerpen, geeft het bedrijf aan dat het ‘snelle experimenten kan combineren met zeer onconventionele onderzoeksideeën’.

Deepseek kan “opnieuw computerknelpunten omzeilen en sprongen in de intelligentie ontsluiten”, zei ze, verwijzend naar het “Spoetnik-moment” in januari 2025, toen het bedrijf zijn R1-redeneringsmodel onthulde.

De lancering schokte de technologie-industrie en de Amerikaanse aandelenmarkt, wat aantoonde dat het R1-model topconcurrenten, zoals ChatGPT’s o1, kon evenaren op een fractie van de kosten.

Lian Jye Su, hoofdanalist bij Omdia, een technologieonderzoeks- en adviesbureau, vertelde vrijdag aan Business Insider dat het gepubliceerde onderzoek mogelijk een rimpeleffect in de hele sector, waarbij rivaliserende AI-laboratoria hun eigen versies van de aanpak ontwikkelen.

“De bereidheid om belangrijke bevindingen met de industrie te delen en tegelijkertijd unieke waarde te blijven leveren via nieuwe modellen getuigt van een hernieuwd vertrouwen in de Chinese AI-industrie”, zei Su over het artikel van DeepSeek. Openheid wel omarmd als “een strategisch voordeel en een belangrijke onderscheidende factor”, voegde hij eraan toe.

Is het volgende DeepSeek-model aan de horizon?

Het artikel komt terwijl DeepSeek naar verluidt werkt aan de release van zijn volgende vlaggenschipmodel R2, na een eerder uitstel.

R2, die medio 2025 werd verwacht, werd uitgesteld nadat Liang zijn ontevredenheid had geuit over de prestaties van het model, volgens een rapport uit juni van The Information. Volgens het rapport werd de lancering ook bemoeilijkt door een tekort aan geavanceerde AI-chips, een beperking die steeds meer heeft bepaald hoe Chinese laboratoria grensmodellen trainen en inzetten.

Hoewel het artikel R2 niet vermeldt, heeft de timing wenkbrauwen doen fronsen. DeepSeek publiceerde eerder fundamenteel trainingsonderzoek voorafgaand aan de lancering van het R1-model.

Su zei dat de staat van dienst van DeepSeek suggereert dat de nieuwe architectuur “zeker in hun nieuwe model zal worden geïmplementeerd.”

Sun daarentegen is voorzichtiger. “Er komt hoogstwaarschijnlijk geen stand-alone R2”, zei Sun. Omdat DeepSeek al eerdere R1-updates in zijn V3-model heeft geïntegreerd, zou de techniek de ruggengraat kunnen vormen van DeepSeeks V4-model, voegde ze eraan toe.

Alistair Barr van Business Insider schreef in juni dat de updates van DeepSeek voor zijn R1-model er niet in slaagden veel grip te genereren in de technologie-industrie. Barr voerde aan dat distributie belangrijk is, en dat DeepSeek nog steeds niet het brede bereik heeft dat toonaangevende AI-laboratoria – zoals OpenAI en Google – genieten, vooral op de westerse markten.



Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in