Home Nieuws MiroMind’s MiroThinker 1.5 levert prestaties van biljoen parameters uit een 30B-model –...

MiroMind’s MiroThinker 1.5 levert prestaties van biljoen parameters uit een 30B-model – tegen 1/20ste van de kosten

6
0
MiroMind’s MiroThinker 1.5 levert prestaties van biljoen parameters uit een 30B-model – tegen 1/20ste van de kosten

Zich aansluiten bij een groeiend aantal kleinere, krachtige redeneermodellen is MiroThinker 1.5 van MiroMind, met slechts 30 miljard parameters, vergeleken met de honderden miljarden of biljoenen die worden gebruikt door toonaangevende grote taalmodellen (LLM’s).

Maar MiroThinker 1.5 onderscheidt zich van deze kleinere redeneerders om één belangrijke reden: het biedt krachtige onderzoeksmogelijkheden die kunnen wedijveren met concurrenten met biljoen parameters, zoals Zoals K2 En Diepzoekentegen een fractie van de inferentiekosten.

De release markeert een mijlpaal in het streven naar efficiënte, inzetbare AI-agenten. Bedrijven zijn lange tijd gedwongen te kiezen tussen dure API-aanroepen naar grensmodellen of gecompromitteerde lokale prestaties. MiroThinker 1.5 biedt een derde pad: open-weight-modellen die speciaal zijn ontworpen voor langdurig gereedschapsgebruik en redeneren in meerdere stappen.

Een van de grootste trends die in de branche opduikt, is een verschuiving van zeer gespecialiseerde agenten naar meer algemene agenten. Tot voor kort was die mogelijkheid grotendeels beperkt tot propriëtaire modellen. MiroThinker 1.5 vertegenwoordigt een serieuze concurrent in open gewicht op dit gebied. Let op mijn YouTube-video daarop hieronder.

Verminderd risico op hallucinaties door verifieerbare redenering

Voor IT-teams die de inzet van AI evalueren, blijven hallucinaties de belangrijkste barrière voor het gebruik van open modellen in de productie. MiroThinker 1.5 pakt dit aan via wat MiroMind de ‘wetenschappermodus’ noemt: een fundamentele architecturale verschuiving in de manier waarop het model met onzekerheid omgaat.

In plaats van statistisch plausibele antwoorden te genereren op basis van uit het hoofd geleerde patronen (de hoofdoorzaak van de meeste hallucinaties), is MiroThinker getraind om een ​​verifieerbare onderzoekscyclus uit te voeren: hypothesen voorstellen, externe bronnen bevragen op bewijsmateriaal, mismatches identificeren, conclusies herzien en opnieuw verifiëren. Tijdens de training wordt het model expliciet bestraft voor resultaten met veel vertrouwen die geen bronondersteuning hebben.

De praktische implicatie voor bedrijfsimplementatie is controleerbaarheid. Wanneer MiroThinker een antwoord geeft, kan het zowel de redeneringsketen als de externe bronnen die het heeft geraadpleegd aan het licht brengen. Voor gereguleerde sectoren zoals de financiële dienstverlening, de gezondheidszorg en de juridische sector creëert dit een documentatiespoor dat op memorisatie gebaseerde modellen niet kunnen bieden. Complianceteams kunnen niet alleen beoordelen wat het model heeft geconcludeerd, maar ook hoe het daar terecht is gekomen.

Deze aanpak vermindert ook het ‘zelfverzekerde hallucinatie’-probleem dat veel voorkomt bij productie-AI-systemen. Het model is getraind om verificatie te zoeken in plaats van te extrapoleren als het onzeker is – een gedrag dat zich direct vertaalt in minder kostbare fouten.

Benchmarkprestaties: ponsen boven zijn gewicht

Binnen dit raamwerk levert MiroThinker-v1.5-30B prestaties die vergelijkbaar zijn met modellen met tot 30x meer parameters, inclusief het Kimi-K2-Thinking-model met biljoen parameters.

Op BrowseComp-ZH, een belangrijke benchmark voor webonderzoeksmogelijkheden, presteerde het 30B-model zelfs beter dan zijn concurrent met biljoen parameters met een score van 69,8.

Grafiek die de prestaties toont van MiroMind’s nieuwe MiroThinker 1.5 30-miljard parametermodel vergeleken met grotere open en closed source concurrenten op BrowseComp Benchmark. Krediet: MiroMind

Het kostenverschil is minstens zo opmerkelijk. MiroMind rapporteert inferentiekosten van slechts $ 0,07 per oproep voor de 30B-variant – ongeveer een twintigste van de kosten van Kimi-K2-Thinking – samen met hogere inferentiesnelheden.

Een grotere 235B-variant (met 22B actieve parameters in een mix van experts-architectuur) staat in de mondiale toplaag van meerdere zoekagentbenchmarks. Bij algemene agentische zoekevaluaties houden deze modellen stand tegenover systemen van DeepSeek V3.2, Minimax, GLM en Kimi-K2.

Tijdens het testen benadert het grotere model Gemini 3 Pro op verschillende benchmarks en komt het dichter bij GPT-5-klasse systemen dan het aantal parameters zou doen vermoeden. Hoewel heuvelklimmen steeds gebruikelijker wordt, gaat het vooral om de algehele concurrentiekracht – en MiroThinker houdt zich goed staande.

Uitgebreid gereedschapsgebruik: tot 400 gereedschapsoproepen per sessie

Het bepalende vermogen van MiroThinker 1.5 is het langdurig gebruik van tools.

De modellen ondersteunen maximaal 256.000 tokens aan context en claimen ondersteuning voor maximaal 400 tooloproepen per sessie – een cruciale vereiste voor complexe onderzoeksworkflows waarbij uitgebreide informatieverzameling, synthese en kruiscontrole betrokken zijn.

Dit plaatst MiroThinker stevig in de opkomende categorie van agentische modellen die zijn ontworpen voor autonome taakvoltooiing in plaats van vraag-en-antwoord in één keer. Praktische toepassingen zijn onder meer diepgaande onderzoeksworkflows, contentpijplijnen, het genereren van rapporten en output in podcaststijl vergelijkbaar met NotebookLM.

Trainingsinnovatie: tijdgevoelige sandbox

Een andere belangrijke innovatie in MiroThinker 1.5 is de Time-Sensitive Training Sandbox.

Traditionele modeltraining werkt vanuit wat MiroMind beschrijft als een ‘Godsperspectief’, waarbij het model toegang heeft tot definitieve resultaten binnen statische datasets, waardoor vooringenomenheid achteraf ontstaat. De training van MiroThinker neemt dat voordeel weg.

Tijdens de training kan het model alleen communiceren met informatie die vóór een bepaald tijdstempel is gepubliceerd, waardoor toekomstige lekkage wordt voorkomen en het wordt gedwongen te redeneren onder realistische omstandigheden van onvolledige informatie.

De pijplijn combineert gecontroleerde verfijning met versterkend leren met behulp van verifieerbare beloningen via Group Relative Policy Optimization (GRPO), een geavanceerd versterkend leeralgoritme gepopulariseerd door DeepSeek, waardoor het model wordt aangemoedigd om op het juiste moment de juiste tool te selecteren.

Deze aanpak is vooral relevant voor bedrijfsgebruiksscenario’s waarbij modellen moeten redeneren over evoluerende situaties in plaats van zich statische feiten te herinneren.

Praktische implementatieoverwegingen

Voor IT-teams die implementatie overwegen, zijn de hardwarevereisten nog steeds van belang. Zelfs het 30B-model vereist een aanzienlijke hoeveelheid GPU-geheugen, en kleinere opstellingen kunnen problemen hebben.

Een voordeel is compatibiliteit. MiroThinker draait op vLLM-servers met OpenAI-compatibele API-eindpunten, waardoor het gemakkelijker wordt om te integreren in bestaande toolchains en workflows voor het aanroepen van functies als drop-in vervanging.

Beide modelgroottes zijn beschikbaar onder de tolerante, ondernemingsvriendelijke MIT-licentie op Hugging Face, en er is een online demo beschikbaar voor evaluatie. De permissieve licentie neemt belangrijke barrières voor interne implementatie en afstemming weg.

Het grotere plaatje: interactief schalen versus parameterschalen

MiroThinker 1.5 arriveert nu de industrie geconfronteerd wordt met de grenzen van traditionele schaalwetten. Grotere modellen garanderen niet langer betere prestaties in de echte wereld. Zoals Artificial Analysis heeft opgemerkt, zijn veel benchmarks verzadigd, waardoor de industrie wordt gedwongen tot evaluaties op basis van economisch nut in plaats van alleen op abstracte redeneringen.

MiroMind zet in op interactieve schaling: het verbeteren van de mogelijkheden door een diepere interactie met het gereedschap in plaats van steeds grotere aantallen parameters. Als dit juist is, kan dit geavanceerde agenten mogelijk maken op een infrastructuur die niet afhankelijk is van dure grens-API’s.

Het bedrijf, opgericht door Tianqiao Chen en AI-wetenschapper Jifeng Dai, beschrijft zijn missie als het bouwen van ‘Native Intelligence’: AI die redeneert door middel van interactie, niet door memoriseren.

Of deze aanpak dominant wordt of een gespecialiseerde niche blijft, is nog steeds een open vraag. Maar voor bedrijven die worstelen met afwegingen tussen kosten en capaciteit biedt MiroThinker 1.5 een overtuigend datapunt: soms is het leren van een model hoe het onderzoek moet doen belangrijker dan het leren alles te onthouden.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in