Home Nieuws Weibo’s nieuwe open source AI-model VibeThinker-1.5B presteert beter dan DeepSeek-R1 met een...

Weibo’s nieuwe open source AI-model VibeThinker-1.5B presteert beter dan DeepSeek-R1 met een post-trainingsbudget van $ 7.800

16
0

Nog een dag eind 2025, opnieuw een indrukwekkend resultaat van een Chinees bedrijf in open source kunstmatige intelligentie.

Chinees sociaal netwerkbedrijf De AI-divisie van Weibo heeft onlangs zijn open source VibeThinker-1.5B uitgebracht– een groot taalmodel (LLM) met 1,5 miljard parameters, een verfijnde variant van een rivaliserend Chinees technologiebedrijf Alibaba’s Qwen2.5-Math-1.5B.

Het is nu gratis te downloaden en te gebruiken door onderzoekers en zakelijke ontwikkelaars, zelfs voor commerciële doeleinden, onder een toegestane MIT-licentie op Knuffelend gezicht, GitHub En Modelbereikmet een technisch rapport op open access wetenschappelijke publicatiesite arxiv.org.

En toch behaalt VibeThinker-1.5B, ondanks zijn compacte formaat, uitmuntende redeneerprestaties op het gebied van wiskunde en coderen, en overtreft hij modellen die honderden keren zo groot zijn, en overtreft hij zelfs beter dan de beroemde R1 van de Chinese rivaal DeepSeek, die begin dit jaar viraal ging (een parametermodel van 671 miljard) op het gebied van formeel redeneren.

Het overschaduwt verder het Magistral Medium van Mistral AI en houdt stand tegenover Claude Opus 4 van Anthropic en het gpt-oss-20B Medium van OpenAI, terwijl het allemaal een fractie van de infrastructuur en investeringen vereist.

Het doet dit ook nadat het is getraind met een budget van slechts $7800 USD voor computerbronnen (3900 GPU-uren op Nvidia H800s) – veel minder dan de tientallen of zelfs honderden duizenden dollars die doorgaans nodig zijn om modellen van vergelijkbare of grotere schaal te verfijnen.

Bedenk echter dat dit niet de totale kosten van de ontwikkeling van het model zijn: LLM’s worden in fasen getraind. Eerst komt de pre-training, waarbij het model de basistaalstructuur en algemene kennis leert door het volgende woord te voorspellen in enorme hoeveelheden tekst van internet, boeken en artikelen. Dit geeft het vloeiendheid, maar niet veel gevoel voor het volgen van instructies of het voeren van een gesprek

Daarna volgt de post-training, waarbij gebruik wordt gemaakt van veel kleinere datasets van hogere kwaliteit (meestal verzamelingen voorbeeldvragen, aanwijzingen en door deskundigen geschreven antwoorden) om het model te leren hoe behulpzaam te reageren, problemen te doorgronden en zich aan te passen aan menselijke verwachtingen. Toch is de kosteneffectiviteit van Weibo na de training op VibeThinker-1.5B opmerkelijk en moet worden geprezen.

De open source-release zet aannames over parameterschaal, rekenintensiteit en de minimaal haalbare grootte voor krachtige LLM’s opzij.

Een andere trainingsaanpak: spectrum-naar-signaal

VibeThinker-1.5B dankt zijn prestaties niet aan schaalgrootte, maar aan het trainingsraamwerk erachter: het Spectrum-to-Signal Principle (SSP).

In plaats van een model puur te optimaliseren voor de correctheid van één antwoord (Pass@1), ontkoppelt het SSP-framework supervisie fine-tuning (SFT) en versterkend leren (RL) in twee verschillende fasen met verschillende doelen:

  • SFT (“Spectrumfase”): Het model is getraind om de diversiteit van mogelijke correcte antwoorden te maximaliseren, waardoor de Pass@K-score wordt verbeterd. Hierdoor ontstaat een breed scala aan plausibele oplossingspaden.

  • RL (“Signaalfase”): Een leersysteem voor versterking in de tweede fase (genaamd MaxEnt-Guided Policy Optimization, of MGPO) wordt gebruikt om de meest correcte paden uit deze diverse oplossingspool te identificeren en te versterken. MGPO geeft prioriteit aan problemen waarbij het model het meest onzeker is, door gebruik te maken van op entropie gebaseerde weging om het leren te focussen.

De auteurs beweren dat deze scheiding kleine modellen in staat stelt de redeneerruimte effectiever te verkennen, waardoor signaalversterking wordt bereikt zonder afhankelijk te zijn van enorme aantallen parameters.

VibeThinker-1.5B maakt overtuigend duidelijk dat het vertrouwen van de industrie op het schalen van parameters als de enige route naar betere redeneerprestaties achterhaald kan zijn.

Door gebruik te maken van een diversiteitsgerichte trainingspijplijn heeft WeiboAI aangetoond dat kleinere, beter toegankelijke modellen systemen van miljarden dollars kunnen evenaren en zelfs beter kunnen presteren bij logica-zware taken.

De lage voetafdruk van hulpbronnen is een van de belangrijkste aspecten van VibeThinker-1.5B. Met minder dan $8.000 zijn de post-trainingskosten 30-60x lager dan die van modellen als DeepSeek R1 en MiniMax-M1, die tussen de $294.000 en $535.000 kosten om te trainen.

Prestaties over domeinen heen

Ondanks zijn kleine omvang levert VibeThinker-1.5B domeinoverschrijdende redenering die veel grotere open-source en commerciële modellen overtreft:

Model

AIME25

LiveCodeBench v6

GPQA-Diamant

VibeThinker-1.5B

74,4

51.1

46,7

GPT-OSS-20B-Medium

72.1

54,9

66,0

Sluit werk af 4

69,2

56,6

79,6

MiniMax M1 (456B)

74,6

62,3

69,2

DeepSeek R1 (671B)

70,0

65,9

71,5

Kimi K2 (1,09T)

49,5

53,7

75,1

VibeThinker werd vergeleken met zowel redeneergerichte modellen (Magistral, Claude, OpenAI o3-mini) als niet-redenerende LLM’s (GPT-4.1, Kimi K2, DeepSeek V3). In de benchmarks voor gestructureerd redeneren presteerde het model consistent beter dan niet-redeneringsmodellen, ongeacht de grootte:

  • Op AIME24 (wiskunde) versloeg het Kimi K2 (1,09T) met meer dan 10 punten (80,3 versus 69,6).

  • Op LiveCodeBench v6 overtrof het Claude Opus 4 (51,1 versus 47,4).

  • Op GPQA scoorde het lager dan GPT-4.1 en Claude, maar verdubbelde het basismodel nog steeds (van 16,4 naar 46,7).

Dit ondersteunt de bewering van de auteurs dat omvang niet de enige weg is naar redeneervermogen; met een goed trainingsontwerp kunnen kleinere modellen de prestaties van veel grotere systemen bij gerichte taken evenaren of zelfs overtreffen.

Het bereikt met name pariteit met modellen die honderden keren groter zijn op het gebied van wiskunde en code, hoewel het achterblijft op het gebied van algemene kennisredenering (GPQA), waar grotere modellen een voorsprong behouden.

Dit duidt op een potentiële wisselwerking tussen specialisaties: hoewel VibeThinker uitblinkt in gestructureerde logische taken, heeft het minder capaciteit voor een brede encyclopedische herinnering, een bekende beperking van kleinere architecturen.

Leidraad voor adoptie door ondernemingen

De release bevat aanbevolen inferentie-instellingen (temperatuur = 0,6, top_p = 0,95, max. tokens = 40960).

Het model is klein genoeg om te worden ingezet op edge-apparaten, waaronder mobiele telefoons en in voertuigen ingebouwde systemen, terwijl de inferentiekosten naar schatting 20 tot 70 keer goedkoper zijn dan bij grote modellen.

Dit positioneert VibeThinker-1.5B niet alleen als een onderzoeksprestatie, maar als een potentiële basis voor kostenefficiënte, lokaal inzetbare redeneersystemen.

Weibo’s strategie en marktpositie

Weibo, gelanceerd door Sina Corporation in 2009, blijft een hoeksteen van het Chinese socialemedia-ecosysteem. Vaak omschreven als de Chinese versie van X (voorheen Twitter), combineert het platform microblogging, multimedia-inhoud en trending topic-functies met een regelgevingsomgeving die wordt gevormd door streng toezicht van de overheid.

Ondanks het feit dat er maandelijks 600 miljoen actieve gebruikers zijn (meer dan tweemaal zoveel als X), beleggers zijn niet optimistisch over het groeipotentieel van de advertentie-inkomsten op de korte termijn, en Weibo moet omgaan met de toenemende concurrentie van video-first-platforms zoals Douyin, die jongere gebruikers aantrekken en de tijd elders doorbrengen.

Als reactie daarop heeft Weibo zich toegelegd op het genereren van inkomsten uit de creator-economie, livestreaming en verticale video, door tools toe te voegen voor de betrokkenheid van influencers, e-commerce-integratie en rijkere analyses voor merken.

De rol van het platform als digitaal openbaar plein maakt het ook tot een aandachtspunt van toezichthoudend toezicht. De Chinese autoriteiten blijven druk uitoefenen op kwesties variërend van contentbeheer tot gegevensbeveiliging. In september 2025, Weibo was een van de platforms die in officiële waarschuwingen werden genoemdwat de aanhoudende blootstelling aan beleidsrisico’s onderstreept.

Weibo’s streven naar AI R&D – geïllustreerd door de release van VibeThinker-1.5B – duidt op een verschuiving in ambitie. Weibo is niet alleen een mediaplatform, maar positioneert zichzelf ook als een speler in de volgende fase van de Chinese AI-ontwikkeling, waarbij het zijn kapitaalreserves, gegevens over gebruikersgedrag en interne onderzoekscapaciteit gebruikt om aangrenzende technische domeinen te onderzoeken.

Wat het betekent voor technische besluitvormers in ondernemingen

Voor technische leiders en zakelijke AI-teams heeft de release van VibeThinker praktische implicaties voor alles, van orkestratiepijplijnen tot kostenmodellering.

Een model met 1,5 miljard parameters dat beter presteert dan 100x grotere modellen op het gebied van wiskunde en programmeren, bespaart niet alleen rekenkracht, maar verschuift ook de architectonische balans. Het maakt LLM-inferentie op beperkte infrastructuur mogelijk, vermindert de latentie aan de rand en verlaagt de toegangsdrempel voor applicaties die anders API-toegang tot gesloten modellen op grensschaal nodig zouden hebben gehad.

Dat is van belang voor zakelijke ML-leiders die redenerende agenten proberen in te zetten binnen bestaande systemen, of voor platformeigenaren die LLM’s moeten integreren in geautomatiseerde workflows.

Het spreekt ook degenen aan die versterkingsleren van menselijke feedback (RLHF)-pijplijnen uitvoeren of gevolgtrekkingsoptimalisatie beheren in hybride cloudomgevingen.

De post-trainingsmethodologie van het model – met name de op entropie gerichte benadering van versterkend leren – biedt een routekaart voor teams die kleinere controlepunten willen verfijnen in plaats van te vertrouwen op grootschalige voortraining.

De stappen op het gebied van transparantie en gegevensontsmetting van VibeThinker richten zich ook op een andere opkomende prioriteit in zakelijke AI: controleerbaarheid. Hoewel de prestaties op algemene kennistests nog steeds achterlopen op grote grensmodellen, maakt de taakspecifieke betrouwbaarheid het een aantrekkelijke kandidaat voor gecontroleerde omgevingen waar correctheid belangrijker is dan dekking.

Kortom, VibeThinker-1.5B is niet alleen een onderzoeksmijlpaal, het is een sterke kandidaat voor praktisch zakelijk gebruik, implementatie en lessen. Het suggereert dat een nieuwe klasse van compacte, voor redeneren geoptimaliseerde modellen haalbaar is voor bedrijfsgebruiksscenario’s die voorheen het domein waren van veel grotere systemen. Voor organisaties die een evenwicht proberen te vinden tussen kosten, latentie, interpreteerbaarheid en controle, is het een goede nieuwe optie voor de lange, groeiende lijst van Chinese open source-aanbiedingen.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in