Home Nieuws Alibaba’s nieuwe open source Qwen3.5-Medium-modellen bieden Sonnet 4.5-prestaties op lokale computers

Alibaba’s nieuwe open source Qwen3.5-Medium-modellen bieden Sonnet 4.5-prestaties op lokale computers

3
0
Alibaba’s nieuwe open source Qwen3.5-Medium-modellen bieden Sonnet 4.5-prestaties op lokale computers

Alibaba’s nu beroemde Qwen AI-ontwikkelingsteam heeft het opnieuw gedaan: iets meer dan een dag geleden brachten ze de Qwen3.5 Medium Model-serie bestaande uit vier nieuwe grote taalmodellen (LLM’s) met ondersteuning voor het aanroepen van agentische tools, waarvan er drie beschikbaar zijn voor commercieel gebruik door ondernemingen en indie-ontwikkelaars onder de standaard open source Apache 2.0-licentie:

  • Qwen3.5-35B-A3B

  • Qwen3.5-122B-A10B

  • Qwen3.5-27B

Ontwikkelaars kunnen ze nu downloaden op Knuffelend gezicht En Modelbereik. Een vierde model, Qwen3.5-Flash, lijkt eigendom te zijn en alleen verkrijgbaar via de Alibaba Cloud Model Studio-APImaar biedt nog steeds een sterk kostenvoordeel in vergelijking met andere modellen in het Westen (zie prijsvergelijkingstabel hieronder).

Maar het grote verschil met de open source-modellen is dat ze op benchmarktests van derden vergelijkbare hoge prestaties leveren als eigen modellen van vergelijkbare grootte van grote Amerikaanse startups als OpenAI of Anthropic, en feitelijk beter zijn dan OpenAI’s GPT-5-mini en Anthropic’s Claude Sonnet 4.5 – het laatste model dat net vijf maanden geleden vrijgelaten.

En het Qwen-team zegt het heeft deze modellen zo ontworpen dat ze zeer nauwkeurig blijven, zelfs als ze worden ‘gekwantiseerd’, een proces dat hun voetafdruk verder verkleint door het aantal waarden waarmee de instellingen van het model worden opgeslagen, terug te brengen van veel waarden naar veel minder.

Cruciaal is dat deze release contextvensters op grensniveau naar de desktop-pc brengt. Het vlaggenschip Qwen3.5-35B-A3B kan nu een contextlengte van 1 miljoen tokens overschrijden op GPU’s van consumentenkwaliteit met 32 ​​GB VRAM. Hoewel dit niet iets is waar iedereen toegang toe heeft, is dit veel minder rekenkracht dan veel andere, vergelijkbaar presterende opties.

Deze sprong wordt mogelijk gemaakt door vrijwel verliesloze nauwkeurigheid onder een gewicht van 4 bits en KV-cachekwantisering, waardoor ontwikkelaars enorme datasets kunnen verwerken zonder infrastructuur van serverkwaliteit.

Technologie: Deltakracht

De kern van de prestaties van Qwen 3.5 wordt gevormd door een geavanceerde hybride architectuur. Terwijl veel modellen uitsluitend afhankelijk zijn van standaard Transformer-blokken, integreert Qwen 3.5 Gated Delta Networks in combinatie met een schaars Mixture-of-Experts (MoE)-systeem. De technische specificaties voor de Qwen3.5-35B-A3B onthullen een zeer efficiënt ontwerp:

  • Parameterefficiëntie: Hoewel het model in totaal 35 miljard parameters bevat, wordt het alleen geactiveerd 3 miljard voor elk gegeven token.

  • Deskundige diversiteit: De MoE-laag maakt gebruik van 256 experts, waarvan 8 gerouteerde experts en 1 gedeelde expert die helpen de prestaties op peil te houden en tegelijkertijd de inferentielatentie te verkorten.

  • Bijna-verliesloze kwantisering: De serie behoudt een hoge nauwkeurigheid, zelfs wanneer deze wordt gecomprimeerd tot 4-bits gewichten, waardoor de geheugenvoetafdruk voor lokale implementatie aanzienlijk wordt verminderd.

  • Basismodelvrijgave: In een poging om de onderzoeksgemeenschap te ondersteunen, heeft Alibaba de Qwen3.5-35B-A3B-basis model naast de geïnstrueerde versies.

Product: Intelligentie die eerst ‘denkt’

Qwen 3.5 introduceert een native “Thinking Mode” als standaardstatus. Voordat het een definitief antwoord geeft, genereert het model een interne redeneerketen, begrensd door tags – om door complexe logica te werken. Het productassortiment is op maat gemaakt voor verschillende hardwareomgevingen:

  • Qwen3.5-27B: Geoptimaliseerd voor hoge efficiëntie en ondersteunt een contextlengte van meer dan 800.000 tokens.

  • Qwen3.5-flitser: De gehoste versie van productiekwaliteit, met een standaardcontextlengte van 1 miljoen tokens en ingebouwde officiële tools.

  • Qwen3.5-122B-A10B: Dit model is ontworpen voor GPU’s van serverkwaliteit (80 GB VRAM) en ondersteunt contextlengtes van meer dan 1 miljoen, terwijl het de kloof met ’s werelds grootste frontier-modellen verkleint.

Benchmarkresultaten valideren deze architecturale verschuiving. Het 35B-A3B-model overtreft met name veel grotere voorgangers, zoals Qwen3-235B, evenals de eerder genoemde eigen GPT-5 mini en Sonnet 4.5 in categorieën zoals kennis (MMMLU) en visueel redeneren (MMMU-Pro).

Alibaba Qwen3.5 Medium modellen benchmark-vergelijkingstabel. Krediet: Alibaba

Prijzen en API-integratie

Voor degenen die niet hun eigen gewichten hosten, biedt Alibaba Cloud Model Studio een concurrerende API voor Qwen3.5-Flash.

  • Invoer: $0,1 per token van 1 miljoen

  • Uitvoer: $ 0,4 per 1 miljoen tokens

  • Cache-creatie: $ 0,125 per 1 miljoen tokens

  • Cache lezen: $ 0,01 per 1 miljoen tokens

De API beschikt ook over een gedetailleerd Tool Calling-prijsmodel, waarbij Web Search $ 10 per 1.000 oproepen kost en Code Interpreter momenteel voor een beperkte tijd gratis wordt aangeboden.

Dit maakt Qwen3.5-Flash een van de meest betaalbare API’s van alle grote LLM’s ter wereld. Bekijk hieronder een tabel waarin ze worden vergeleken:

Model

Invoer

Uitvoer

Totale kosten

Bron

Qwen3 Turbo

$ 0,05

$ 0,20

$ 0,25

Alibaba-wolk

Qwen3.5-Flash

$ 0,10

$ 0,40

$ 0,50

Alibaba-wolk

deepseek-chat (V3.2-Exp)

$ 0,28

$ 0,42

$ 0,70

Diepzoeken

deepseek-reasoner (V3.2-Exp)

$ 0,28

$ 0,42

$ 0,70

Diepzoeken

Grok 4.1 Snel (redenering)

$ 0,20

$ 0,50

$ 0,70

xAI

Grok 4.1 Snel (niet redenerend)

$ 0,20

$ 0,50

$ 0,70

xAI

MiniMax M2.5

$ 0,15

$ 1,20

$ 1,35

MiniMax

MiniMax M2.5-Bliksem

$ 0,30

$ 2,40

$ 2,70

MiniMax

Gemini 3 Flash-voorbeeld

$ 0,50

$ 3,00

$ 3,50

Googlen

Kimi-k2.5

$ 0,60

$ 3,00

$ 3,60

Maanschot

GLM-5

$ 1,00

$ 3,20

$ 4,20

Z.ai

ERNIE 5.0

$ 0,85

$ 3,40

$ 4,25

Baidu

Claude Haiku 4.5

$ 1,00

$ 5,00

$ 6,00

Antropisch

Qwen3-Max (23-01-2026)

$ 1,20

$ 6,00

$ 7,20

Alibaba-wolk

Gemini 3 Pro (≤200K)

$ 2,00

$ 12,00

$ 14,00

Googlen

GPT-5.2

$ 1,75

$ 14,00

$ 15,75

OpenAI

Claude Sonnet 4.5

$ 3,00

$ 15,00

$ 18,00

Antropisch

Gemini 3 Pro (>200K)

$ 4,00

$ 18,00

$ 22,00

Googlen

Sluit werk 4.6

$ 5,00

$ 25,00

$ 30,00

Antropisch

GPT-5.2 Pro

$ 21,00

$ 168,00

$ 189,00

OpenAI

Wat het betekent voor technische leiders en besluitvormers van ondernemingen

Met de lancering van de Qwen3.5 Medium Models is de snelle iteratie en verfijning die ooit voorbehouden was aan goed gefinancierde laboratoria nu toegankelijk voor on-premise ontwikkeling bij veel niet-technische bedrijven, waardoor geavanceerde AI effectief wordt losgekoppeld van enorme kapitaaluitgaven.

In de hele organisatie transformeert deze architectuur de manier waarop gegevens worden verwerkt en beveiligd. De mogelijkheid om enorme documentopslagplaatsen of video’s op uurschaal lokaal op te nemen, maakt diepgaande institutionele analyse mogelijk zonder de privacyrisico’s van API’s van derden.

Door deze gespecialiseerde ‘Mixture-of-Experts’-modellen binnen een privéfirewall uit te voeren, kunnen organisaties soevereine controle over hun gegevens behouden, terwijl ze gebruik maken van native ‘denk’-modi en officiële tool-calling-mogelijkheden om betrouwbaardere, autonome agenten te bouwen.

Early adopters van Hugging Face hebben specifiek het vermogen van het model geprezen om “de kloof te verkleinen” in agentische scenario’s waarin voorheen alleen de grootste gesloten modellen konden concurreren.

Deze verschuiving naar architectonische efficiëntie boven ruwe schaal zorgt ervoor dat AI-integratie kostenbewust, veilig en flexibel genoeg blijft om gelijke tred te houden met de veranderende operationele behoeften.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in