Home Nieuws Alibaba’s eigen Qwen3.7-Max kan 35 uur autonoom draaien en ondersteunt externe harnassen...

Alibaba’s eigen Qwen3.7-Max kan 35 uur autonoom draaien en ondersteunt externe harnassen zoals Claude Code van Anthropic

4
0
Alibaba’s eigen Qwen3.7-Max kan 35 uur autonoom draaien en ondersteunt externe harnassen zoals Claude Code van Anthropic

De AI-industrie is volledig het ‘agent-tijdperk’ binnengegaan, een paradigma waarin AI-modellen veel meer doen dan alleen tekst genereren: ze plannen, voeren uit en corrigeren complexe taken nu actief in dagen in plaats van in seconden.

Het is dus misschien niet verrassend om te zien dat het beroemde Qwen-team van AI-onderzoekers van de Chinese e-commercegigant Alibaba een model uitbrengt dat in staat is om autonoom AI-werk over meerdere dagen uit te voeren: dat model is gearriveerd in de vorm van Qwen3.7-Max, dat de bedrijfsrapporten in een blogpost bereikt “~35 uur continue autonome uitvoering” – zij het in een eigen, niet open source-formaat, zoals eerdere Qwen Team-releases waren.

Dit is ook te verwachten; het is waar veel analisten en experts uit de sector in de VS bang voor waren na het vertrek van verschillende belangrijke Qwen-teamleiders eerder dit jaar. Maar financieel gezien is het voor Alibaba zinvol, tenminste op de korte termijn: het trainen van AI-modellen, vooral degenen die zo krachtig zijn als Qwen3.7-Max, is duur, en het gratis weggeven ervan, zoals open source-modellen dat zijn, helpt niet onmiddellijk om de kosten terug te verdienen.

In die zin stemt Alibaba zijn inspanningen simpelweg af op Amerikaanse AI-giganten als OpenAI en Google door de nieuwste en beste modellen alleen aan te bieden via betaalde API’s en abonnements- of betaalde webabonnementsbundels, en iets minder presterende modellen via open source.

Toch biedt de komst van Qwen3.7-Max verdere mogelijkheden voor bedrijven en individuele gebruikers, en meer concurrentie voor Amerikaanse AI-laboratoria – zelden een slechte zaak voor consumenten op elk budgetniveau. Maar het feit dat het model alleen toegankelijk is vanaf in China gevestigde eindpunten betekent dat het mogelijk beperkt is in zijn aantrekkingskracht op Amerikaanse en Europese ondernemingen die de naleving en veiligheid willen maximaliseren bij het nakomen van overheidscontracten, of zelfs maar proberen te voldoen aan alle relevante staats-, lokale en nationale regelgeving op het gebied van datasoevereiniteit.

Het marathon-AI-tijdperk

Om te begrijpen waarom Qwen3.7-Max afwijkt van eerdere modellen, moet je kijken naar hoe het is getraind en hoe het in de praktijk werkt.

Taalmodellen gaan doorgaans achteruit als ze gedwongen worden één enkele gedachtegang over duizenden conversatiewendingen vol te houden; ze vergeten instructies, hallucineren variabelen, of komen gewoon vast te zitten in logische lussen. Qwen3.7-Max is specifiek ontworpen als een ‘veelzijdige agentbasis’ die in staat is tot ‘lange horizon redeneren’ om dit exacte knelpunt te overwinnen.

De duidelijkste demonstratie van deze mogelijkheid is een autonome engineeringtaak die is uitgewerkt door het Qwen-team. Het model kreeg toegang tot een geïsoleerde server uitgerust met een T-Head ZW-M890 PPU, een hardwarearchitectuur die het model tijdens zijn training nog nooit was tegengekomen. Zijn taak was het optimaliseren van een aandachtskern.

In de loop van 35 uur achter elkaar opereerde Qwen3.7-Max volledig autonoom. Het voerde 1.158 verschillende toolaanroepen uit, voerde 432 kernelevaluaties uit, diagnosticeerde compilatiefouten en verbeterde de code iteratief om een ​​geometrische gemiddelde snelheid van 10,0x te bereiken.

Ter vergelijking: Chinese modellen van concurrenten houden ervan z.ai’s GLM-5.1 En Kimi K2.6 van Moonshot met een maximale snelheid van respectievelijk 7,3x en 5,0x, waarbij ze vaak vrijwillig hun sessies beëindigden als ze geen vooruitgang boekten. Beide zijn echter open source beschikbaar.

Dit uithoudingsvermogen wordt bereikt door wat Alibaba ‘milieuschaling’ noemt. Net toen vroege LLM’s slimmer werden door meer diverse tekst op te nemen, werd Qwen3.7-Max getraind in een groot, geschaald scala aan dynamische agentische omgevingen.

Het is in staat om een ​​levenscyclus van een jaar van een startup te simuleren in de “YC-Bench”-evaluatie, waarbij honderden besluitvormingsrondes worden doorlopen, waaronder personeelsbeheer en contractscreening. In deze simulatie slaagde het model erin om $2,08 miljoen aan virtuele inkomsten te genereren, waardoor de prestaties van de vorige generatie, Qwen3.6-Plus, bijna verdubbelden.

Bovendien beschikt het model over ingebouwde beloningshacking-zelfcontrole, die autonoom detecteert wanneer het probeert een trainingsomgeving te bedriegen en heuristische regels toevoegt om zijn eigen gedrag te corrigeren.

Een brein voor elk schavot

Vanuit productperspectief is Qwen3.7-Max ontworpen als de cognitieve motor voor moderne softwareontwikkeling en bedrijfsautomatisering.

Het model biedt een enorm contextvenster van 1 miljoen tokens en een maximale uitvoerlimiet van 64K, wat een enorme overhead oplevert voor het verwerken van uitgestrekte codebases of lange technische documenten.

Een van de meest aantrekkelijke kenmerken is “cross-harnas-generalisatie”. In plaats van hardgecodeerd te zijn om het beste te werken binnen een specifieke eigen interface, is Qwen3.7-Max gebouwd om te fungeren als een drop-in intelligentielaag voor diverse agentframeworks. Het ondersteunt native het Anthropic API-protocol, waardoor ontwikkelaars dit kunnen doen sluit het rechtstreeks aan op bestaande tools zoals Claude Code of OpenClaw.

Uit de door Alibaba verstrekte benchmarkgegevens blijkt dat deze algemene aanpak enorme vruchten heeft afgeworpen.

Op de Apex Math Reasoning-benchmarkQwen3.7-Max scoorde 44,5, wat de score van Claude Opus-4.6 Max van 34,5 overschaduwde En DeepSeek V4-Pro Max’s 38.3. Het is ook gepost dominante scores op Humanity’s Last Exam (41,4) en de realistische coderingsagentbenchmark MCP-Atlas (76,4).

Alibaba Qwen3.7-Max benchmarkvergelijkingstabel. Krediet: Alibaba Qwen

Dit vertaalt zich in tastbaar nut voor eindgebruikers. Via open source Model Context Protocol (MCP)-integraties kan het model functioneren als een autonome kantoorassistent, in staat om de opmaakspecificaties van universiteiten te lezen en een rommelig Word-document automatisch opnieuw te formatteren via opdrachtregelprogramma’s, zonder menselijke tussenkomst.

Het uitvoeren van dit niveau van intelligentie brengt duidelijke kosten met zich mee. Ontwikkelaars die toegang krijgen tot de API via Alibaba Cloud Model Studio betalen $2,50 per 1 miljoen inputtokens en $7,50 per 1 miljoen outputtokens. Het platform biedt ook expliciete cache-aanmaak en leesprijzen, evenals een vergoeding van $ 10 per 1.000 oproepen voor geïntegreerde zoekopdrachten op internet, hoewel code-interpretatietools gedurende een beperkte tijd gratis blijven.

Qwen3.7-Max bezet een strategische middenweg in de huidige API-economie. Hoewel het een opmerkelijke premie vraagt ​​ten opzichte van agressief geprijsde binnenlandse rivalen – die bijna het dubbele kost van DeepSeek V4 Pro ($5,22) en Z.ai’s GLM-5.1 ($5,80) – ondermijnt het drastisch de westerse giganten die het routinematig op benchmarks evenaart.

Ter context: het uitvoeren van zware agentische workflows via OpenAI’s GPT-5.4 of Anthropic’s Claude Opus 4.7 zal ontwikkelaars respectievelijk $17,50 en $30,00 per miljoen tokens opleveren. Zie de prijsgrafiek van VentureBeat hieronder:

Model

Invoer

Uitvoer

Totale kosten

Bron

MiMo-V2.5 flitser

$ 0,10

$ 0,30

$ 0,40

Xiaomi MiMo

MiniMax M2.7

$ 0,30

$ 1,20

$ 1,50

MiniMax

Gemini 3.1 Flash-Lite

$ 0,25

$ 1,50

$ 1,75

Googlen

MiMo V2.5

$ 0,40

$ 2,00

$ 2,40

Xiaomi MiMo

Kimi-K2.6

$ 0,95

$ 4,00

$ 4,95

Maanschot/Kimi

GLM-5

$ 1,00

$ 3,20

$ 4,20

Z.ai

Grok 4.3 (lage context)

$ 1,25

$ 2,50

$ 3,75

xAI

DeepSeek V4 Pro

$ 1,74

$ 3,48

$ 5,22

Diepzoeken

GLM-5.1

$ 1,40

$ 4,40

$ 5,80

Z.ai

Claude Haiku 4.5

$ 1,00

$ 5,00

$ 6,00

Antropisch

Grok 4.3 (hoge context)

$ 2,50

$ 5,00

$ 7,50

xAI

Qwen3.7-Max

$ 2,50

$ 7,50

$ 10,00

Alibaba-wolk

Gemini 3.5 Flitser

$ 1,50

$ 9,00

$ 10,50

Googlen

Gemini 3.1 Pro Preview (≤200K)

$ 2,00

$ 12,00

$ 14,00

Googlen

GPT-5.4

$ 2,50

$ 15,00

$ 17,50

OpenAI

Gemini 3.1 Pro Preview (>200K)

$ 4,00

$ 18,00

$ 22,00

Googlen

Sluit werk 4.7

$ 5,00

$ 25,00

$ 30,00

Antropisch

GPT-5.5

$ 5,00

$ 30,00

$ 35,00

OpenAI

Door Qwen3.7-Max net onder Google’s Gemini 3.5 Flash ($10,50) maar ruim boven budgetmodellen te positioneren, geeft Alibaba aan dat dit geen commodity-release is; het is een vlaggenschip-redeneermachine die geprijsd is om de werklast van ondernemingen weg te lokken van de duurste aanbiedingen van Silicon Valley.

De licentieverlening blijft voorlopig eigendom

Ondanks al zijn technische genialiteit is het meest controversiële aspect van Qwen3.7-Max de manier waarop het wordt gedistribueerd. Qwen factureert de release als een ‘eigen model’. Het is strikt alleen API.

Historisch gezien Alibaba’s Qwen is een held voor de open source geweest en lokale LLM-gemeenschappen. Eerdere iteraties, zoals Qwen 2.5 en Qwen 3.6, hebben hun gewichten publiekelijk vrijgegeven. Met open gewichten kunnen ontwikkelaars, onderzoekers en ondernemingen het model downloaden, op hun eigen hardware uitvoeren en afstemmen voor zeer specifieke of gegevensgevoelige gebruiksscenario’s zonder bedrijfseigen informatie naar een server van derden te sturen.

Door Qwen3.7-Max achter een API te vergrendelen, keert Alibaba terug naar het standaard commerciële draaiboek dat wordt gebruikt door OpenAI (met GPT-4) en Anthropic (met Claude). Voor zakelijke gebruikers betekent dit dat het gebruik van Qwen3.7-Max vereist dat ze hun datastromen aan Alibaba Cloud toevertrouwen en dat ze volledig moeten vertrouwen op internetconnectiviteit om hun agentische workflows uit te voeren. Voor de open-sourcegemeenschap betekent dit dat ze de toegang verliezen tot wat momenteel een van de meest capabele modellen ter wereld is.

De reacties uit de gemeenschap waren verdeeld tussen ontzag en teleurstelling

De reactie van de ontwikkelaarsgemeenschap was snel en werd gekenmerkt door een mix van diep respect voor de technische prestaties en frustratie over het licentiemodel.

Prominent NAAR commentator Sudo op (@sudoingX) veroverde het heersende sentiment op X (voorheen Twitter). “qwen is onwerkelijk”, schreven ze. “Ze hebben zojuist 3,7 max verlaagd en het verslaat opus 4,6 max op de meeste benchmarks die ze hebben uitgevoerd”.

De technische gegevens, met name het uithoudingsvermogen van het model, hebben velen in het veld verbijsterd achtergelaten. “Het topwiskundige getal, 44,5 tegen opus 34,5, dat is geen kleine kloof”, merkte Sudo su op. “De 35 uur achter elkaar aan een kerneloptimalisatietaak met meer dan 1000 tool-oproepen is het deel dat ik blijf herlezen. Dat is het agenttijdperk dat daadwerkelijk gebeurt, geen glijbaan”.

De snelheid van Alibaba’s iteratie trekt ook de aandacht. Nu Qwen 3.6 vorige maand werd uitgebracht, benadrukt de sprong naar 3.7-Max een meedogenloze ontwikkelingscadans. Zoals Sudo su opmerkte: “niemand anders beweegt zo”.

Toch wordt de lof zwaar ondermijnd door de verschuiving naar een gesloten ecosysteem. Het verlies van de modelgewichten wordt gezien als een klap voor de gelokaliseerde AI-beweging, die vertrouwt op de modernste open modellen om de grenzen te verleggen van wat er kan worden gedaan op consumentenhardware of particuliere ondernemingsclusters.

“Eén ding: open source deze alsjeblieft ook”, pleitte Sudo su in hun post. “3.6 density heeft het hele lokale llm-ecosysteem beter gemaakt. De max-tier-api zou alleen een deur sluiten die we open hebben gehouden. Geef ons uiteindelijk de gewichten”.

Qwen3.7-Max bewijst dat het tijdperk van autonome agenten niet langer een theoretische projectie is; het is een huidige realiteit die in staat is complexe technische hoogstandjes uit te voeren terwijl mensen slapen. De enige vraag is nu of deze nieuwe grens van AI een gedemocratiseerde hulpbron zal zijn die je naar je laptop kunt downloaden, of een inlichtingenprogramma dat uitsluitend vanuit de cloud wordt gehuurd. Voorlopig is het bij Qwen3.7-Max onmiskenbaar het laatste.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in