Home Nieuws Kimi K2 Thinking van Moonshot komt naar voren als toonaangevende open source...

Kimi K2 Thinking van Moonshot komt naar voren als toonaangevende open source AI en presteert beter dan GPT-5 en Claude Sonnet 4.5 op belangrijke benchmarks

19
0

Zelfs als bezorgdheid en scepsis groeit dankzij de uitbouwstrategie en hoge uitgavenverplichtingen van de Amerikaanse AI-startup OpenAI, Chinese open source AI-aanbieders escaleren hun concurrentie en men heeft zelfs het vlaggenschip van OpenAI, het betaalde eigen model GPT-5, ingehaald in belangrijke prestatiebenchmarks van derden met een nieuw, gratis model.

De Chinese AI-startup Moonshot AI’s nieuwe Kimi K2 Thinking-modeldat vandaag is uitgebracht, is voorbij zowel eigen concurrenten als concurrenten met een open gewicht gesprongen en claimt de toppositie op het gebied van redeneren, coderen en benchmarks voor agentische tools.

Ondanks dat het volledig open-source is, presteert het model nu beter dan OpenAI’s GPT-5, Anthropic’s Claude Sonnet 4.5 (Thinking-modus) en xAI’s Grok-4 op verschillende standaardevaluaties – een keerpunt voor het concurrentievermogen van open AI-systemen.

Ontwikkelaars hebben toegang tot het model via platform.moonshot.ai En kimi.com; gewichten en code worden gehost op Knuffelend gezicht. De open release bevat API’s voor chatten, redeneren en workflows met meerdere tools.

Gebruikers kunnen Kimi K2 Thinking rechtstreeks via zijn eigen programma uitproberen ChatGPT-achtige website-concurrent en aan ook een knuffelgezichtsruimte.

Gewijzigde standaard open source-licentie

Moonshot AI heeft Kimi K2 Thinking formeel uitgebracht onder a Gewijzigde MIT-licentie op knuffelend gezicht.

De licentie verleent volledige commerciële en afgeleide rechten – wat betekent dat individuele onderzoekers en ontwikkelaars die namens zakelijke klanten werken er vrij toegang toe hebben en deze in commerciële toepassingen kunnen gebruiken – maar voegt één beperking toe:

“Als de software of een afgeleid product dient meer dan 100 miljoen maandelijkse actieve gebruikers of genereert meer dan $20 miljoen USD per maand aan inkomsten, de implementeerder moet ‘Kimi K2’ prominent weergeven op de gebruikersinterface van het product.”

Voor de meeste onderzoeks- en bedrijfstoepassingen functioneert deze clausule als een eenvoudige attributievereiste, terwijl de vrijheden van standaard MIT-licenties behouden blijven.

Het maakt K2 Thinking tot een van de meest tolerant gelicentieerde frontier-class-modellen die momenteel beschikbaar zijn.

Een nieuwe benchmarkleider

Kimi K2 Thinking is een Mixture-of-Experts (MoE)-model dat is opgebouwd rond een biljoen parameters, waarvan er per gevolgtrekking 32 miljard worden geactiveerd.

Het combineert redeneren over een langere horizon met gestructureerd gereedschapsgebruik, waarbij tot wel 200 tot 300 opeenvolgende gereedschapsoproepen kunnen worden uitgevoerd zonder menselijke tussenkomst.

Volgens de gepubliceerde testresultaten van Moonshot heeft K2 Thinking het volgende bereikt:

  • 44,9% op Het laatste examen van de mensheid (HLE)een ultramoderne partituur;

  • 60,2% op BladerenCompeen agentische webzoek- en redeneringstest;

  • 71,3% op SWE-Bench geverifieerd En 83,1% op LiveCodeBench v6sleutelcoderingsevaluaties;

  • 56,3% op Zegel-0een benchmark voor het ophalen van informatie uit de echte wereld.

Bij al deze taken presteert K2 Thinking consistent beter dan de overeenkomstige scores van GPT-5 overtreft de vorige leider in open gewicht, de MiniMax-M2—slechts enkele weken eerder uitgebracht door de Chinese rivaal MiniMax AI.

Open model presteert beter dan bedrijfseigen systemen

GPT-5 en Claude Sonnet 4.5 Thinking blijven de belangrijkste gepatenteerde ‘denkmodellen’.

Maar in dezelfde benchmarksuite, De scores voor agentisch redeneren van K2 Thinking overtreffen beide: op BrowseComp bijvoorbeeld leidt de 60,2% van het open model op beslissende wijze de 54,9% van GPT-5 en de 24,1% van Claude 4.5.

K2 Thinking komt ook binnen GPT-5 GPQA-diamant (85,7% versus 84,5%) en koppelt dit aan wiskundige redeneertaken zoals AIME 2025 En HMT 2025.

Alleen in bepaalde heavy-mode configuraties – waarbij GPT-5 meerdere trajecten samenvoegt – herwint het eigen model de pariteit.

Dat de release van Moonshot met volledig open gewicht de scores van de GPT-5 kan halen of overtreffen, markeert een keerpunt. De kloof tussen gesloten grenssystemen en openbaar beschikbare modellen is feitelijk ingestort voor hoogwaardig redeneren en coderen.

MiniMax-M2 overtreffen: de vorige open source benchmark

Wanneer VentureBeat geprofileerde MiniMax-M2 nog maar anderhalve week geleden werd het geprezen als de “nieuwe koning van open-source LLM’s”, die topscores behaalde onder open-weight-systemen:

  • τ²-Bank 77.2

  • BladerComp 44.0

  • FinSearchComp-global 65.5

  • SWE-Bench geverifieerd 69.4

Deze resultaten plaatsten de MiniMax-M2 in de buurt van GPT-5-niveau bij het gebruik van agentische gereedschappen. Nog Kimi K2 Thinking overschaduwt ze nu met ruime marges.

Het BrowseComp-resultaat van 60,2% overtreft de 44,0% van M2, en de SWE-Bench Verified 71,3% overtreft de 69,4% van M2. Zelfs bij taken op het gebied van financieel redeneren, zoals FinSearchComp-T3 (47,4%), presteert K2 Thinking vergelijkbaar, terwijl het superieure redeneren voor algemene doeleinden behouden blijft.

Technisch gezien gebruiken beide modellen schaarse Mixture-of-Experts-architecturen voor rekenefficiëntie, maar het netwerk van Moonshot activeert meer experts en implementeert geavanceerde kwantiseringsbewuste training (INT4 QAT).

Dit ontwerp verdubbelt de inferentiesnelheid ten opzichte van de standaardprecisie zonder dat dit ten koste gaat van de nauwkeurigheid – cruciaal voor lange ‘thinking-token’-sessies die 256 k-contextvensters bereiken.

Agentisch redeneren en gereedschapsgebruik

Het bepalende vermogen van K2 Thinking ligt in het expliciete redeneerspoor ervan. Het model voert een hulpveld uit, redenering_inhoud, dat tussenliggende logica onthult vóór elk definitief antwoord. Deze transparantie behoudt de samenhang tussen lange multi-turn-taken en multi-step tool calls.

Een door Moonshot gepubliceerde referentie-implementatie laat zien hoe het model autonoom een ​​workflow voor ‘dagelijks nieuwsverslagen’ uitvoert: het aanroepen van datum- en webzoekhulpmiddelen, het analyseren van opgehaalde inhoud en het samenstellen van gestructureerde uitvoer – allemaal met behoud van de interne redenering.

Deze end-to-end autonomie stelt het model in staat om bewijsmateriaal in honderden stappen te plannen, te doorzoeken, uit te voeren en te synthetiseren, een weerspiegeling van de opkomende klasse van ‘agentische AI’-systemen die met minimaal toezicht werken.

Efficiëntie en toegang

Ondanks de schaal van biljoen parameters blijven de runtimekosten van K2 Thinking bescheiden. Moonshot vermeldt het gebruik op:

  • $ 0,15 / 1 miljoen tokens (cachehit)

  • $ 0,60 / 1 miljoen tokens (cachemisser)

  • $ 2,50 / 1 miljoen tokensuitvoer

Deze tarieven zijn concurrerend, zelfs vergeleken met de $0,30 input/$1,20 output-prijzen van MiniMax-M2 – en een orde van grootte onder GPT-5 ($1,25 input/$10 output).

Vergelijkende context: versnelling met open gewicht

De snelle opeenvolging van M2- en K2-denken illustreert hoe snel open source-onderzoek grensverleggende systemen inhaalt. MiniMax-M2 demonstreerde dat open modellen agentische capaciteiten van GPT-5-klasse konden benaderen tegen een fractie van de computerkosten. Moonshot heeft die grens nu verder verlegd en openlijke gewichten voorbij de pariteit geduwd in regelrecht leiderschap.

Beide modellen zijn vanwege de efficiëntie afhankelijk van spaarzame activering, maar het hogere aantal activeringen van K2 Thinking (32 B versus 10 B actieve parameters) levert een sterkere redeneergetrouwheid op tussen domeinen. Het opschalen van de testtijd – het uitbreiden van ‘denktokens’ en het oproepen van tools – zorgt voor meetbare prestatieverbeteringen zonder herscholing, een functie die nog niet is waargenomen in MiniMax-M2.

Technische vooruitzichten

Moonshot meldt dat K2 Thinking ondersteunt native INT4-gevolgtrekking En 256 k-token-contexten met minimale prestatievermindering. De architectuur integreert kwantisering, parallelle trajectaggregatie (“heavy mode”) en Mixture-of-Experts-routering afgestemd op redeneringstaken.

In de praktijk zorgen deze optimalisaties ervoor dat K2 Thinking complexe planningslussen – code compileren – testen – repareren, zoeken – analyseren – samenvatten – over honderden toolaanroepen kan ondersteunen. Deze mogelijkheid ondersteunt de superieure resultaten op BrowseComp en SWE-Bench, waarbij de continuïteit van het redeneren doorslaggevend is.

Enorme implicaties voor het AI-ecosysteem

De convergentie van open en gesloten modellen aan de bovenkant duidt op een structurele verschuiving in het AI-landschap. Bedrijven die ooit uitsluitend vertrouwden op propriëtaire API’s kunnen nu open alternatieven inzetten die overeenkomen met de redenering op GPT-5-niveau, terwijl ze de volledige controle behouden over gewichten, gegevens en compliance.

De open publicatiestrategie van Moonshot volgt het precedent dat is geschapen door DeepSeek R1, Qwen3, GLM-4.6 en MiniMax-M2, maar breidt deze uit tot volledige agentische redenering.

Voor academische en zakelijke ontwikkelaars biedt K2 Thinking zowel transparantie als interoperabiliteit: de mogelijkheid om redeneersporen te inspecteren en de prestaties voor domeinspecifieke agenten te verfijnen.

De komst van K2 Thinking geeft aan dat Moonshot – a jonge startup opgericht in 2023 met investeringen van enkele van de grootste apps- en technologiebedrijven van China – is hier om te spelen in een steeds intensievere concurrentie, en komt te midden van toenemende aandacht voor de financiële duurzaamheid van de grootste spelers op het gebied van AI.

Nog maar een dag geleden zorgde OpenAI CFO Sarah Friar voor controverse suggereert op WSJ Tech Live Mocht de Amerikaanse overheid uiteindelijk een “backstop” moeten bieden voor de meer dan 1,4 biljoen dollar aan reken- en datacenterverplichtingen van het bedrijf – een opmerking die algemeen wordt geïnterpreteerd als een roep om door de belastingbetaler gedekte leninggaranties.

Hoewel Friar verduidelijkte later dat OpenAI niet op zoek was naar directe federale steun, wakkerde de episode het debat over de omvang en concentratie van de AI-investeringen opnieuw aan.

Nu OpenAI, Microsoft, Meta en Google allemaal racen om de aanvoer van chips op de lange termijn veilig te stellen, waarschuwen critici voor een onhoudbare investeringszeepbel en een ‘AI-wapenwedloop’ die meer wordt gedreven door strategische angst dan door commerciële rendementen – een die zou kunnen ‘opblazen’ en daarmee de hele wereldeconomie zou kunnen neerhalen als er sprake is van aarzeling of marktonzekerheid, omdat er nu zoveel transacties en waarderingen zijn gedaan in afwachting van aanhoudend grote AI-investeringen en enorme rendementen.

Tegen die achtergrond zetten de open-weight releases van Moonshot AI en MiniMax meer druk op Amerikaanse eigen AI-bedrijven en hun financiers om de omvang van de investeringen en de trajecten naar winstgevendheid te rechtvaardigen.

Als een zakelijke klant net zo gemakkelijk vergelijkbare of betere prestaties kan halen uit een gratis, open source Chinees AI-model dan met betaalde, eigen AI-oplossingen zoals GPT-5 van OpenAI, Claude Sonnet 4.5 van Anthropic of Gemini 2.5 Pro van Google – waarom zouden ze dan blijven betalen voor toegang tot de eigen modellen? Bekende mensen uit Silicon Valley, zoals Airbnb, hebben al hun wenkbrauwen opgetrokken omdat ze dit zwaar hebben toegegeven het gebruik van Chinese open source-alternatieven zoals Alibaba’s Qwen in plaats van het eigen aanbod van OpenAI.

Voor investeerders en ondernemingen suggereren deze ontwikkelingen dat hoogwaardige AI-capaciteiten niet langer synoniem zijn met hoogwaardige kapitaaluitgaven. De meest geavanceerde redeneersystemen komen nu misschien niet meer van bedrijven die datacenters op gigantische schaal bouwen, maar van onderzoeksgroepen die architecturen en kwantisering optimaliseren met het oog op efficiëntie.

In die zin is de dominantie van K2 Thinking niet slechts een technische mijlpaal; het is een strategische mijlpaal, die op een moment komt waarop de grootste vraag van de AI-markt is verschoven van hoe krachtig modellen kunnen worden naar die het zich kan veroorloven om ze te onderhouden.

Wat het betekent voor toekomstige ondernemingen

Binnen enkele weken na de opkomst van de MiniMax-M2 heeft Kimi K2 Thinking het – samen met GPT-5 en Claude 4.5 – ingehaald op bijna elke redenering en agentische benchmark.

Het model laat zien dat systemen met open gewicht dat wel kunnen voldoen nu aan of overtreffen propriëtaire grensmodellen zowel qua mogelijkheden als efficiëntie.

Voor de AI-onderzoeksgemeenschap vertegenwoordigt K2 Thinking meer dan een open model: het is een bewijs dat de grens collaboratief is geworden.

Het best presterende redeneermodel dat momenteel beschikbaar is, is geen gesloten commercieel product, maar een open-sourcesysteem dat voor iedereen toegankelijk is.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in