Home Nieuws Alibaba’s Qwen 3.5 397B-A17 verslaat zijn grotere model met biljoen parameters –...

Alibaba’s Qwen 3.5 397B-A17 verslaat zijn grotere model met biljoen parameters – tegen een fractie van de kosten

4
0
Alibaba’s Qwen 3.5 397B-A17 verslaat zijn grotere model met biljoen parameters – tegen een fractie van de kosten

Alibaba liet Qwen3.5 vallen eerder deze week, getimed om samen te vallen met het nieuwe maanjaar, en de belangrijkste cijfers alleen al zijn genoeg om zakelijke AI-kopers te laten stoppen en opletten.

Het nieuwe vlaggenschipmodel met open gewicht – Qwen3.5-397B-A17B – bevat in totaal 397 miljard parameters, maar activeert slechts 17 miljard per token. Het beweert dat de benchmark wint Alibaba’s eigen vorige vlaggenschip, Qwen3-Maxeen model dat het bedrijf zelf heeft erkend, overschreed een biljoen parameters.

De release markeert een betekenisvol moment in de AI-inkoop voor ondernemingen. Voor IT-leiders die de AI-infrastructuur voor 2026 evalueren, presenteert Qwen 3.5 een ander soort argument: dat het model dat je daadwerkelijk kunt uitvoeren, bezitten en controleren, nu klappen kan uitdelen met de modellen die je moet huren.

Een nieuwe architectuur gebouwd voor snelheid op schaal

Het technische verhaal onder Qwen3.5 begint met zijn afkomst. Het model is een directe opvolger van het experimentele Qwen3-Next van afgelopen september, een uiterst schaars MoE-model dat al eerder werd bekeken, maar algemeen als half-getraind werd beschouwd. Qwen3.5 neemt die architecturale richting en schaalt deze agressief op, van 128 experts in de vorige Qwen3 MoE-modellen naar 512 experts in de nieuwe release.

De praktische implicatie hiervan en een beter aandachtsmechanisme is een dramatisch lagere gevolgtrekkingslatentie. Omdat slechts 17 miljard van die 397 miljard parameters actief zijn voor een bepaalde forward pass, ligt de computervoetafdruk veel dichter bij een model met een dichtheid van 17 miljard dan bij een model van 400 miljard, terwijl het model voor gespecialiseerd redeneren gebruik kan maken van de volledige diepte van zijn expertpool.

Deze snelheidswinsten zijn aanzienlijk. Bij een contextlengte van 256K decodeert Qwen 3.5 19 keer sneller dan Qwen3-Max en 7,2 keer sneller dan het 235B-A22B-model van Qwen 3.

Alibaba beweert ook dat het model 60% goedkoper in gebruik is dan zijn voorganger en acht keer beter in staat is om grote gelijktijdige werklasten aan te kunnen, cijfers die enorm belangrijk zijn voor elk team dat aandacht besteedt aan gevolgrekeningen. Het gaat ook om 1/18e de kosten van Google’s Gemini 3 Pro.

Twee andere architecturale beslissingen versterken deze winst:

  1. Qwen3.5 maakt gebruik van multi-token-voorspellingen – een aanpak die is ontwikkeld in verschillende gepatenteerde modellen – die de convergentie vóór de training versnelt en de doorvoer verhoogt.

  2. Het ook erft het aandachtssysteem van Qwen3-Volgende vorig jaar uitgebracht, specifiek ontworpen om de geheugendruk bij zeer lange contextlengtes te verminderen.

Het resultaat is een model dat comfortabel kan werken binnen een contextvenster van 256K in de open-weight-versie, en tot 1 miljoen tokens in de gehoste Qwen3.5-Plus-variant op Alibaba Cloud Model Studio.

Native multimodaal, niet vastgeschroefd

Alibaba hanteerde jarenlang de standaard industriële aanpak: bouw een taalmodel en koppel er vervolgens een vision-encoder aan om een ​​aparte VL-variant te creëren. Qwen3.5 laat dat patroon volledig varen. Het model wordt vanaf het begin getraind op tekst, afbeeldingen en video tegelijk, wat betekent dat visuele redenering is verweven in de kernrepresentaties van het model in plaats van erop te worden geënt.

Dit is in de praktijk van belang. Van nature multimodale modellen hebben de neiging beter te presteren dan hun op adapters gebaseerde tegenhangers bij taken die een strakke tekst-beeld-redenering vereisen – denk aan het analyseren van een technisch diagram naast de bijbehorende documentatie, het verwerken van UI-screenshots voor agentische taken, of het extraheren van gestructureerde gegevens uit complexe visuele lay-outs. Op MathVista scoort het model 90,3; op MMMU, 85.0. Het loopt achter op Gemini 3 op verschillende visiespecifieke benchmarks, maar overtreft Claude Opus 4.5 op het gebied van multimodale taken en plaatst concurrerende cijfers ten opzichte van GPT-5.2, terwijl het slechts een fractie van het aantal parameters bevat.

De benchmarkprestaties van Qwen3.5 ten opzichte van grotere bedrijfseigen modellen zijn het getal dat zakelijke gesprekken zal stimuleren.

Volgens de evaluaties die Alibaba heeft gepubliceerd, presteert het 397B-A17B-model beter dan Qwen3-Max – een model met meer dan een biljoen parameters – bij meerdere redeneer- en codeertaken.

Qwen3.5-397B-A17B benchmarkgrafiek. Krediet: Alibaba Qwen

Het claimt ook concurrerende resultaten ten opzichte van GPT-5.2, Claude Opus 4.5 en Gemini 3 Pro op het gebied van algemene redeneer- en codeerbenchmarks.

Taaldekking en tokenizer-efficiëntie

Een ondergewaardeerd detail in de Qwen3.5-release is het uitgebreide meertalige bereik. De woordenschat van het model is gegroeid tot 250.000 tokens, vergeleken met 150.000 in eerdere Qwen-generaties en nu vergelijkbaar met de ~256.000 tokenizer van Google. De taalondersteuning breidt zich uit van 119 talen in Qwen 3 naar 201 talen en dialecten.

De tokenizer-upgrade heeft directe kostenimplicaties voor wereldwijde implementaties. Grotere vocabulaires coderen niet-Latijnse schriften (Arabisch, Thais, Koreaans, Japans, Hindi en andere) efficiënter, waardoor het aantal tokens met 15 tot 40% wordt verminderd, afhankelijk van de taal. Voor IT-organisaties die AI op grote schaal gebruiken voor meertalige gebruikersbestanden is dit geen academisch detail. Het vertaalt zich direct in lagere inferentiekosten en snellere responstijden.

Agentische mogelijkheden en de OpenClaw-integratie

Alibaba positioneert Qwen3.5 expliciet als een agentisch model – een model dat niet alleen is ontworpen om op vragen te reageren, maar ook om autonome actie in meerdere stappen te ondernemen namens gebruikers en systemen. Het bedrijf beschikt over open source Qwen Code, een opdrachtregelinterface waarmee ontwikkelaars complexe codeertaken in natuurlijke taal aan het model kunnen delegeren, ongeveer analoog aan Claude Code van Anthropic.

De release benadrukt ook de compatibiliteit met OpenClaw, het open-source agentic framework dat dit jaar enorm in de adoptie door ontwikkelaars is toegenomen. Met 15.000 verschillende versterkende leertrainingsomgevingen die worden gebruikt om de redenering en taakuitvoering van het model aan te scherpen, heeft het Qwen-team bewust gekozen voor op RL gebaseerde training om de praktische agentische prestaties te verbeteren – een trend die consistent is met wat MiniMax demonstreerde met M2.5.

De door Qwen3.5-Plus gehoste variant maakt ook adaptieve inferentiemodi mogelijk: een snelle modus voor latentiegevoelige toepassingen, een denkmodus die uitgebreide gedachtegangsredenering voor complexe taken mogelijk maakt, en een automatische (adaptieve) modus die dynamisch selecteert. Die flexibiliteit is van belang voor bedrijfsimplementaties waarbij hetzelfde model mogelijk zowel realtime klantinteracties als diepgaande analytische workflows moet bedienen.

Implementatierealiteit: wat IT-teams eigenlijk moeten weten

Het intern uitvoeren van de open gewichten van Qwen3.5 vereist serieuze hardware. Terwijl een gekwantiseerde versie ongeveer 256 GB RAM vereist, en realistisch gezien 512 GB voor comfortabele hoofdruimte. Dit is geen model voor een werkstation of een bescheiden server op locatie. Waar het geschikt voor is, is een GPU-knooppunt – een configuratie die veel bedrijven al gebruiken voor inferentie-workloads, en die nu een aantrekkelijk alternatief biedt voor API-afhankelijke implementaties.

Alle Qwen 3.5-modellen met open gewicht worden uitgebracht onder de Apache 2.0-licentie. Dit is een betekenisvol onderscheid met modellen met aangepaste of beperkte licenties: Apache 2.0 staat commercieel gebruik, wijziging en herdistributie toe zonder royalty’s, zonder enige betekenisvolle verplichtingen. Voor juridische en inkoopteams die open modellen evalueren, vereenvoudigt die schone licentiehouding het gesprek aanzienlijk.

Wat komt erna

Alibaba heeft bevestigd dat dit de eerste release in de Qwen3.5-familie is, en niet de volledige uitrol. Gebaseerd op het patroon van Qwen3 – met modellen tot 600 miljoen parameters – verwacht de industrie dat kleinere dichte gedestilleerde modellen en aanvullende MoE-configuraties de komende weken en maanden zullen volgen. Het Qwen3-Next 80B-model van afgelopen september werd algemeen beschouwd als onvoldoende getraind, wat suggereert dat een 3,5-variant op die schaal waarschijnlijk op korte termijn zal worden uitgebracht.

Voor IT-beslissers is het traject duidelijk. Alibaba heeft aangetoond dat open-weight-modellen aan de grens niet langer een compromis zijn. Qwen3.5 is een echte aanschafoptie voor teams die grensverleggende redeneringen, native multimodale mogelijkheden en een contextvenster van 1 miljoen tokens willen, zonder vast te zitten aan een eigen API. De volgende vraag is niet of deze modellenfamilie capabel genoeg is. Het gaat erom of uw infrastructuur en team er klaar voor zijn om hiervan te profiteren.


Qwen 3.5 wel nu beschikbaar op Knuffelgezicht onder model-ID Qwen/Qwen3.5-397B-A17B. De gehoste Qwen3.5-Plus-variant is beschikbaar via Alibaba Cloud Model Studio. Qwen Chat op chat.qwen.ai biedt gratis publieke toegang voor evaluatie.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in