Home Nieuws Alibaba’s kleine, open source Qwen3.5-9B verslaat OpenAI’s gpt-oss-120B en kan op standaardlaptops...

Alibaba’s kleine, open source Qwen3.5-9B verslaat OpenAI’s gpt-oss-120B en kan op standaardlaptops draaien

5
0
Alibaba’s kleine, open source Qwen3.5-9B verslaat OpenAI’s gpt-oss-120B en kan op standaardlaptops draaien

Ondanks politieke onrust in de Amerikaanse AI-sectorIn China gaat de vooruitgang op het gebied van AI zonder problemen door.

Eerder vandaag onthulde het Qwen-team van AI-onderzoekers van e-commercegigant Alibaba, dat zich voornamelijk richtte op het ontwikkelen en vrijgeven aan de wereld van een groeiende familie van krachtige en capabele Qwen open source-taal en multimodale AI-modellen, zijn nieuwste batch, de Qwen3.5 kleine modelseriedie bestaat uit:

  • Qwen3,5-0,8B & 2B: Twee modellen, beide geoptimaliseerd voor “kleine” en “snelle” prestaties, bedoeld voor prototyping en implementatie op edge-apparaten waarbij de levensduur van de batterij voorop staat.

  • Qwen3.5-4B: Een sterke multimodale basis voor lichtgewicht agenten, die native een contextvenster van 262.144 tokens ondersteunt.

  • Qwen3.5-9B een compact redeneermodel dat beter presteert dan het 13,5x grotere De open source gpt-oss-120B van de Amerikaanse rivaal OpenAI op belangrijke benchmarks van derden, waaronder meertalige kennis en redeneren op universitair niveau

Om dit in perspectief te plaatsen: deze modellen zijn in de orde van grootte van de kleinste modellen voor algemeen gebruik die onlangs door welk laboratorium dan ook ter wereld zijn verzonden, meer vergelijkbaar met de MIT-uitloper LiquidAI’s LFM2-seriedie ook enkele honderden miljoenen of miljarden parameters hebben, dan de geschatte biljoen parameters (modelinstellingen) die naar verluidt zijn gebruikt voor de vlaggenschipmodellen uit de OpenAI-, Anthropic- en Google’s Gemini-serie.

De gewichten voor de modellen zijn nu wereldwijd beschikbaar onder Apache 2.0-licenties – perfect voor zakelijk en commercieel gebruik, inclusief aanpassingen indien nodig – op Knuffelend gezicht En Modelbereik.

De technologie: hybride efficiëntie en native multimodaliteit

De technische basis van de Qwen3.5 kleine serie wijkt af van de standaard Transformer-architecturen. Alibaba is op weg naar een efficiënte hybride architectuur die Gated Delta Networks (een vorm van lineaire aandacht) combineert met een schaarse Mixture-of-Experts (MoE).

Deze hybride aanpak pakt de ‘geheugenmuur’ aan die doorgaans kleine modellen beperkt; door gebruik te maken van Gated Delta Networks bereiken de modellen een hogere doorvoer en een aanzienlijk lagere latentie tijdens inferentie.

Bovendien zijn deze modellen van nature multimodaal. In tegenstelling tot eerdere generaties die een vision-encoder aan een tekstmodel hadden gekoppeld, werd Qwen3.5 getraind met behulp van vroege fusie op multimodale tokens. Hierdoor kunnen de 4B- en 9B-modellen een niveau van visueel begrip vertonen – zoals het lezen van UI-elementen of het tellen van objecten in een video – waarvoor voorheen modellen nodig waren die tien keer zo groot waren.

Benchmarking van de “kleine” series: prestaties die de schaal tarten

Nieuw vrijgegeven benchmarkgegevens illustreren hoe agressief deze compacte modellen concurreren met veel grotere industriestandaarden, en deze vaak zelfs overtreffen. De varianten Qwen3.5-9B en Qwen3.5-4B laten een generatiesprong in efficiëntie zien, vooral bij multimodale en redeneringstaken.

De Qwen3.5 Small Models-serie vergelijkt andere modellen van vergelijkbare grootte/klasse. Krediet: Alibaba Qwen

Multimodale dominantie: In de MMMU-Pro-benchmark voor visueel redeneren behaalde Qwen3.5-9B een score van 70,1, waarmee hij beter presteerde dan Gemini 2.5 Flash-Lite (59,7) en zelfs de gespecialiseerde Qwen3-VL-30B-A3B (63,0).

Redeneren op graduate niveau: Op de GPQA Diamond-benchmark behaalde het 9B-model een score van 81,7, waarmee hij gpt-oss-120b (80,1) overtrof, een model met meer dan tien keer zoveel parameters.

Video-begrip: De serie toont topprestaties op het gebied van videoredeneren. Op de Video-MME (met ondertitels) benchmark scoorde Qwen3.5-9B 84,5 en de 4B scoorde 83,5, aanzienlijk beter dan Gemini 2.5 Flash-Lite (74,6).

Wiskundige vaardigheid: In de evaluatie van HMMT van februari 2025 (Harvard-MIT wiskundetoernooi) scoorde het 9B-model 83,2, terwijl de 4B-variant 74,0 scoorde, wat bewijst dat STEM-redenering op hoog niveau niet langer enorme rekenclusters vereist.

Document- en meertalige kennis: De 9B-variant loopt voorop in documentherkenning op OmniDocBench v1.5 met een score van 87,7. Ondertussen behoudt het een meertalige aanwezigheid op het hoogste niveau op MMMLU met een score van 81,2, beter dan gpt-oss-120b (78,2).

Reacties van de gemeenschap: “meer intelligentie, minder rekenkracht”

Dit volgt op de release van vorige week van een toch al vrij kleine, krachtige open source Qwen3,5-gemiddeld De aankondiging van de Qwen3.5-Small Models Series en hun nog kleinere footprint en verwerkingsvereisten, die op één GPU kunnen draaien, wekten onmiddellijke belangstelling bij ontwikkelaars die zich concentreerden op “local-first” AI.

“Meer intelligentie, minder rekenkracht” vond weerklank bij gebruikers die op zoek waren naar alternatieven voor cloudgebaseerde modellen.

AI- en technologiedocent Paul Couvert van Blueshell AI heeft de schok van de industrie met betrekking tot deze efficiëntiesprong vastgelegd.

“Hoe is dit überhaupt mogelijk?!” Couvert schreef op X. “Qwen heeft vier nieuwe modellen uitgebracht en de 4B-versie is bijna net zo capabel als de vorige 80B A3B. En de 9B is net zo goed als GPT OSS 120b, maar is 13x kleiner!”

De analyse van Couvert benadrukt de praktische implicaties van deze architecturale voordelen:

  • “Ze kunnen op elke laptop draaien”

  • “0,8B en 2B voor je telefoon”

  • “Offline en open source”

Als ontwikkelaar Karan Kendre van Kargul Studio zei het: “deze modellen (kunnen) gratis lokaal op mijn M1 MacBook Air draaien.”

Dit gevoel van ‘geweldige’ toegankelijkheid wordt weerspiegeld in het ecosysteem van ontwikkelaars. Eén gebruiker merkte op dat een 4B-model dat dient als een “sterke multimodale basis” een “game changer is voor mobiele ontwikkelaars” die schermleesmogelijkheden nodig hebben zonder hoge CPU-overhead.

Inderdaad, Hugging Face-ontwikkelaar merkte Xenova op dat de nieuwe Qwen3.5 Small Model-serie zelfs rechtstreeks in de webbrowser van een gebruiker kan draaien en zulke geavanceerde en voorheen veeleisendere bewerkingen kan uitvoeren, zoals video-analyse.

Onderzoekers prezen ook de vrijgave van Basismodellen naast de Instruct-versieswaarbij wordt opgemerkt dat het essentiële ondersteuning biedt voor ‘industriële innovatie in de echte wereld’.

De introductie van basismodellen wordt bijzonder gewaardeerd door bedrijfs- en onderzoeksteams omdat het een ‘schone lei’ biedt die niet is beïnvloed door een specifieke reeks RLHF- (Reinforcement Learning from Human Feedback) of SFT-gegevens (Supervised Fine-Tuning), wat vaak kan leiden tot ‘weigeringen’ of specifieke gespreksstijlen die moeilijk ongedaan kunnen worden gemaakt.

Met de Base-modellen hebben degenen die geïnteresseerd zijn in het aanpassen van het model aan specifieke taken en doeleinden een eenvoudiger startpunt, omdat ze nu hun eigen instructieafstemming en post-training kunnen toepassen zonder die van Alibaba te hoeven weghalen.

Licenties: een overwinning voor het open ecosysteem

Alibaba heeft de gewichten en configuratiebestanden voor de Qwen3.5-serie vrijgegeven onder de Apache 2.0-licentie. Deze permissieve licentie maakt commercieel gebruik, wijziging en distributie mogelijk zonder royalty’s, waardoor de “vendor lock-in” die verband houdt met propriëtaire API’s wordt opgeheven.

  • Commercieel gebruik: Ontwikkelaars kunnen modellen kosteloos in commerciële producten integreren.

  • Wijziging: Teams kunnen RLHF verfijnen (SFT) of toepassen om gespecialiseerde versies te maken.

  • Verdeling: Modellen kunnen opnieuw worden gedistribueerd in local-first AI-applicaties zoals Ollama.

Het nieuws contextualiseren: waarom kleine dingen op dit moment zo belangrijk zijn

De release van de Qwen3.5 Small Series komt op een moment van ‘Agentic Realignment’. We zijn voorbij eenvoudige chatbots gegaan; het doel is nu autonomie. Een autonome agent moet ‘denken’ (redeneren), ‘zien’ (multimodaliteit) en ‘handelen’ (gereedschapgebruik). Hoewel dit met modellen met biljoen parameters onbetaalbaar is, kan een lokale Qwen3.5-9B deze lussen voor een fractie van de kosten uitvoeren.

Door Reinforcement Learning (RL) te schalen in omgevingen met miljoenen agenten, heeft Alibaba deze kleine modellen voorzien van een ‘menselijk gericht oordeel’, waardoor ze doelstellingen in meerdere stappen kunnen uitvoeren, zoals het organiseren van een desktop of het reverse-engineeren van gameplay-opnames in code. Of het nu een 0,8B-model is dat op een smartphone draait of een 9B-model dat een codeerterminal van stroom voorziet, de Qwen3.5-serie democratiseert effectief het ‘agentic-tijdperk’.

De verschuiving van de Qwen3.5-serie van ‘chatbits’ naar ‘native multimodale agenten’ transformeert de manier waarop bedrijven intelligentie kunnen distribueren. Door geavanceerde redeneringen naar de ‘edge’ (individuele apparaten en lokale servers) te verplaatsen, kunnen organisaties taken automatiseren waarvoor voorheen dure cloud-API’s of verwerking met hoge latentie nodig waren.

Strategische bedrijfstoepassingen en overwegingen

De 0,8B tot 9B-modellen zijn opnieuw ontworpen voor efficiëntie, waarbij gebruik wordt gemaakt van een hybride architectuur die voor elke taak alleen de noodzakelijke delen van het netwerk activeert.

  • Visuele workflowautomatisering: Met behulp van ‘gronding op pixelniveau’ kunnen deze modellen door desktop- of mobiele gebruikersinterfaces navigeren, formulieren invullen en bestanden ordenen op basis van instructies in natuurlijke taal.

  • Complexe documentparsering: Met scores van meer dan 90% op de benchmarks voor het begrijpen van documenten kunnen ze afzonderlijke OCR- en layout-parsing-pijplijnen vervangen om gestructureerde gegevens uit diverse formulieren en grafieken te extraheren.

  • Autonome codering en refactoring: Bedrijven kunnen volledige repository’s (tot 400.000 regels code) in het 1M-contextvenster invoeren voor productieklare refactoren of geautomatiseerd debuggen.

  • Realtime edge-analyse: De 0.8B- en 2B-modellen zijn ontworpen voor mobiele apparaten en maken offline video-samenvattingen (tot 60 seconden bij 8 FPS) en ruimtelijk redeneren mogelijk zonder de levensduur van de batterij te belasten.

In de onderstaande tabel wordt uiteengezet welke bedrijfsfuncties het meest kunnen profiteren van de lokale implementatie op kleine schaal.

Functie

Primair voordeel

Belangrijkste gebruikscasus

Software-engineering

Lokale code-inlichtingen

Repository-brede refactoring en terminalgebaseerde agentische codering.

Operatie & IT

Veilige automatisering

Automatisering van meerstaps systeeminstellingen en bestandsbeheertaken lokaal.

Product- en gebruikerservaring

Randinteractie

Integratie van native multimodaal redeneren rechtstreeks in mobiele/desktop-apps.

Gegevens en analyses

Efficiënte extractie

High-fidelity OCR en gestructureerde gegevensextractie uit complexe visuele rapporten.

Hoewel deze modellen zeer capabel zijn, introduceren hun kleinschaligheid en ‘agentische’ aard specifieke operationele ‘vlaggen’ die teams in de gaten moeten houden.

  • De hallucinatiecascade: In ‘agentische’ workflows die uit meerdere stappen bestaan, kan een kleine fout in een vroege stap leiden tot een ‘cascade’ van mislukkingen waarbij de agent een onjuist of onzinnig plan nastreeft.

  • Foutopsporing versus Greenfield-codering: Hoewel deze modellen uitblinken in het schrijven van nieuwe ‘greenfield’-code, kunnen ze moeite hebben met het debuggen of aanpassen van bestaande, complexe oudere systemen.

  • Geheugen- en VRAM-eisen: Zelfs “kleine” modellen (zoals de 9B) hebben aanzienlijke VRAM nodig voor gevolgtrekking met hoge doorvoer; de “geheugenvoetafdruk” blijft hoog omdat het totale aantal parameters nog steeds GPU-ruimte in beslag neemt.

  • Regelgeving en gegevensresidentie: Het gebruik van modellen van een in China gevestigde provider kan in bepaalde rechtsgebieden vragen oproepen over de datalocatie, hoewel de Apache 2.0 open-weight-versie hosting op ‘soevereine’ lokale clouds mogelijk maakt.

Bedrijven moeten prioriteit geven aan ‘verifieerbare’ taken, zoals coderen, wiskunde of het volgen van instructies, waarbij de uitvoer automatisch kan worden gecontroleerd aan de hand van vooraf gedefinieerde regels om ‘beloninghacking’ of stille fouten te voorkomen.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in