Chinese AI- en technologiebedrijven blijven indruk maken met hun ontwikkeling van geavanceerde, ultramoderne AI-taalmodellen.
Tegenwoordig is degene die de aandacht trekt het Qwen-team van AI-onderzoekers van Alibaba Cloud en de onthulling van een nieuw eigen taalredeneringsmodel, Qwen3-Max-denken.
U herinnert zich misschien, zoals VentureBeat vorig jaar meldde, dat Qwen naam heeft gemaakt op de snel veranderende mondiale AI-markt door een verscheidenheid aan krachtige, open source-modellen in verschillende modaliteiten te leveren, van tekst tot beeld tot gesproken audio. Het bedrijf kreeg zelfs steun van de Amerikaanse technologiegigant Airbnb, wiens CEO en mede-oprichter Brian Chesky zei dat het bedrijf vertrouwde op de gratis, open source-modellen van Qwen als een betaalbaarder alternatief voor Amerikaanse aanbiedingen zoals die van OpenAI.
Nu, met het gepatenteerde Qwen3-Max-Thinking, streeft het Qwen-team ernaar om de redeneermogelijkheden van GPT-5.2 en Gemini 3 Pro te evenaren en, in sommige gevallen, te overtreffen door architectonische efficiëntie en agentische autonomie.
De release komt op een kritiek moment. Westerse laboratoria hebben de categorie ‘redeneren’ grotendeels gedefinieerd (vaak ‘Systeem 2’-logica genoemd), maar de nieuwste benchmarks van Qwen suggereren dat de kloof is gedicht.
Bovendien is het bedrijf relatief betaalbaar API-prijsstrategie richt zich agressief op adoptie door ondernemingen. Omdat het echter een Chinees model is, zijn sommige Amerikaanse bedrijven met strikte nationale veiligheidseisen en -overwegingen wellicht huiverig om dit model over te nemen.
De architectuur: “Test-Time Scaling” opnieuw gedefinieerd
De kerninnovatie die Qwen3-Max-Thinking aandrijft, is het afwijken van de standaard inferentiemethoden. Terwijl de meeste modellen lineair tokens genereren, gebruikt Qwen3 een ‘zware modus’, aangedreven door een techniek die bekend staat als ‘Test-time scaling’.
Simpel gezegd zorgt deze techniek ervoor dat het model rekenkracht kan inruilen voor intelligentie. Maar in tegenstelling tot naïeve ‘best-of-N’-steekproeven – waarbij een model honderd antwoorden zou kunnen genereren en de beste zou kunnen kiezen – gebruikt Qwen3-Max-Thinking een ervaringscumulatieve, multi-round strategie.
Deze aanpak bootst het oplossen van menselijke problemen na. Wanneer het model een complexe vraag tegenkomt, gokt het niet alleen maar; het houdt zich bezig met iteratieve zelfreflectie. Het maakt gebruik van een eigen ‘take-ervaring’-mechanisme om inzichten uit eerdere redeneerstappen te destilleren. Hierdoor kan het model:
-
Identificeer doodlopende wegen: Herken wanneer een redenering faalt zonder dat u deze volledig hoeft te doorlopen.
-
Focus berekenen: Leid de verwerkingskracht om naar ‘onopgeloste onzekerheden’ in plaats van bekende conclusies opnieuw af te leiden.
De efficiëntiewinst is tastbaar. Door overbodige redeneringen te vermijden, integreert het model een rijkere historische context in hetzelfde venster. Het Qwen-team meldt dat deze methode enorme prestatiesprongen heeft opgeleverd zonder exploderende tokenkosten:
Beyond Pure Thought: adaptieve tooling
Hoewel ‘denkende’ modellen krachtig zijn, zijn ze historisch gezien in silo’s gebleven: ze zijn goed in wiskunde, maar slecht in surfen op internet of het uitvoeren van code. Qwen3-Max-Thinking overbrugt deze kloof door effectief ‘denk- en niet-denkmodi’ te integreren.
Het model beschikt over adaptieve mogelijkheden voor gereedschapsgebruik, wat betekent dat het autonoom het juiste gereedschap voor de taak selecteert, zonder dat de gebruiker daar handmatig om hoeft te vragen. Het kan naadloos schakelen tussen:
-
Zoeken en extraheren op internet: Voor realtime feitelijke vragen.
-
Geheugen: Om gebruikersspecifieke context op te slaan en op te roepen.
-
Codevertolker: Python-fragmenten schrijven en uitvoeren voor computertaken.
In de “denkmodus” ondersteunt het model deze tools tegelijkertijd. Deze mogelijkheid is van cruciaal belang voor bedrijfstoepassingen waarbij een model mogelijk een feit moet verifiëren (zoeken), een projectie moet berekenen (code-interpreter) en vervolgens in één beurt moet redeneren over de strategische implicatie (denken).
Empirisch gezien merkt het team op dat deze combinatie ‘hallucinaties effectief verzacht’, omdat het model zijn redenering kan baseren op verifieerbare externe gegevens in plaats van uitsluitend op zijn trainingsgewichten te vertrouwen.
Benchmarkanalyse: het dataverhaal
Qwen schuwt directe vergelijkingen niet.
Op HMMT 25 februari, een rigoureuze redeneerbenchmark, scoorde Qwen3-Max-Thinking 98,0, waarmee hij Gemini 3 Pro (97,5) achter zich liet en DeepSeek V3.2 (92,5) aanzienlijk leidde.
Het belangrijkste signaal voor ontwikkelaars is echter misschien wel Agentic Search. Over ‘Humanity’s Last Exam’ (HLE) – de benchmark die de prestaties meet op 3000 ‘Google-proof’ vragen op graduate niveau op het gebied van wiskunde, natuurwetenschappen, informatica, geesteswetenschappen en techniek – Qwen3-Max-Thinking, uitgerust met webzoektools, scoorde 49,8 en versloeg zowel Gemini 3 Pro (45,8) als GPT-5.2-Thinking (45,5) .
Dit suggereert dat de architectuur van Qwen3-Max-Thinking bij uitstek geschikt is voor complexe, meerstaps agentische workflows waarbij het ophalen van externe gegevens noodzakelijk is.
Bij codeertaken schittert het model ook. Op Arena-Hard v2 behaalde het een score van 90,2, waarmee concurrenten als Claude-Opus-4.5 (76,7) ver achterbleven.
De economie van redeneren: prijsverdeling
Voor het eerst hebben we een duidelijke blik op de economische aspecten van Qwens top-tier redeneermodel. Alibaba Cloud heeft zich gepositioneerd qwen3-max-2026-01-23 als een premium maar toegankelijk aanbod op zijn API.
Op basisniveau is dit hoe Qwen3-Max-Thinking zich opstapelt:
|
Model |
Invoer (/1M) |
Uitgang (/1M) |
Totale kosten |
Bron |
|
Qwen3 Turbo |
$ 0,05 |
$ 0,20 |
$ 0,25 |
|
|
Grok 4.1 Snel (redenering) |
$ 0,20 |
$ 0,50 |
$ 0,70 |
|
|
Grok 4.1 Snel (niet redenerend) |
$ 0,20 |
$ 0,50 |
$ 0,70 |
|
|
deepseek-chat (V3.2-Exp) |
$ 0,28 |
$ 0,42 |
$ 0,70 |
|
|
deepseek-reasoner (V3.2-Exp) |
$ 0,28 |
$ 0,42 |
$ 0,70 |
|
|
Qwen3 Plus |
$ 0,40 |
$ 1,20 |
$ 1,60 |
|
|
ERNIE 5.0 |
$ 0,85 |
$ 3,40 |
$ 4,25 |
|
|
Gemini 3 Flash-voorbeeld |
$ 0,50 |
$ 3,00 |
$ 3,50 |
|
|
Claude Haiku 4.5 |
$ 1,00 |
$ 5,00 |
$ 6,00 |
|
|
Qwen3-Max Denken (23-01-2026) |
$ 1,20 |
$ 6,00 |
$ 7,20 |
|
|
Gemini 3 Pro (≤200K) |
$ 2,00 |
$ 12,00 |
$ 14,00 |
|
|
GPT-5.2 |
$ 1,75 |
$ 14,00 |
$ 15,75 |
|
|
Claude Sonnet 4.5 |
$ 3,00 |
$ 15,00 |
$ 18,00 |
|
|
Gemini 3 Pro (>200K) |
$ 4,00 |
$ 18,00 |
$ 22,00 |
|
|
Sluit werk 4.5 |
$ 5,00 |
$ 25,00 |
$ 30,00 |
|
|
GPT-5.2 Pro |
$ 21,00 |
$ 168,00 |
$ 189,00 |
Deze prijsstructuur is agressief, ondermijnt veel oudere vlaggenschipmodellen en biedt tegelijkertijd ultramoderne prestaties.
Ontwikkelaars moeten echter rekening houden met de gedetailleerde prijzen voor de nieuwe agentische mogelijkheden, aangezien Qwen de kosten van ‘denken’ (tokens) scheidt van de kosten van ‘doen’ (toolgebruik).
-
Zoekstrategie voor agenten: Beide standaard
search_strategy:agenten hoe geavanceerdersearch_strategy:agent_maxzijn geprijsd op $ 10 per 1.000 oproepen. -
Zoeken op internet: Geprijsd op $ 10 per 1.000 oproepen via de Responses API.
Promotionele gratis laag:Om de acceptatie van de meest geavanceerde functies aan te moedigen, biedt Alibaba Cloud momenteel gedurende een beperkte tijd twee belangrijke tools gratis aan:
Dit prijsmodel (lage tokenkosten + à-la-cartetoolprijzen) stelt ontwikkelaars in staat complexe agenten te bouwen die kosteneffectief zijn voor tekstverwerking, terwijl ze alleen een premie betalen wanneer externe acties (zoals een live zoekopdracht op internet) expliciet worden geactiveerd.
Ontwikkelaar ecosysteem
Alibaba Cloud erkent dat prestaties nutteloos zijn zonder integratie en heeft ervoor gezorgd dat Qwen3-Max-Thinking klaar is voor gebruik.
-
OpenAI-compatibiliteit: De API ondersteunt het standaard OpenAI-formaat, waardoor teams van model kunnen wisselen door simpelweg de
base_urlEnmodelnaam. -
Antropische compatibiliteit: In een slimme poging om de codeermarkt te veroveren, ondersteunt de API ook het Anthropic-protocol. Dit maakt Qwen3-Max-Thinking compatibel met Claude Codeeen populaire agentische codeeromgeving.
Het vonnis
Qwen3-Max-Thinking vertegenwoordigt een volwassenheid van de AI-markt in 2026. Het verplaatst het gesprek van ‘wie heeft de slimste chatbot’ naar ‘wie heeft de meest capabele agent’.
Door zeer efficiënt redeneren te combineren met adaptief, autonoom gebruik van tools – en de prijs ervan op koers te houden – heeft Qwen zichzelf stevig gevestigd als een van de beste kandidaten voor de zakelijke AI-troon.
Voor ontwikkelaars en ondernemingen suggereren de “Beperkte tijd gratis”-vensters op Code Interpreter en Web Extractor dat dit het moment is om te experimenteren. De redeneringsoorlogen zijn nog lang niet voorbij, maar Qwen heeft zojuist een zeer zware slagman ingezet.



