Home Nieuws Z.ai introduceert open source GLM-4.6V, een native vision-model voor het aanroepen van...

Z.ai introduceert open source GLM-4.6V, een native vision-model voor het aanroepen van tools voor multimodaal redeneren

5
0
Z.ai introduceert open source GLM-4.6V, een native vision-model voor het aanroepen van tools voor multimodaal redeneren

Chinese AI-startup Zipu AI oftewel Z.ai heeft zijn GLM-4.6V-serie uitgebrachteen nieuwe generatie open-source vision-taalmodellen (VLM’s) die zijn geoptimaliseerd voor multimodaal redeneren, frontend-automatisering en zeer efficiënte implementatie.

De release bevat twee modellen in “grote” en “kleine” maten:

  1. GLM-4,6V (106B)een groter parametermodel van 106 miljard gericht op gevolgtrekking op cloudschaal

  2. GLM-4.6V-flitser (9B)een kleiner model met slechts 9 miljard parameters, ontworpen voor lokale toepassingen met lage latentie

Bedenk dat modellen met meer parameters (of interne instellingen die hun gedrag bepalen, dat wil zeggen gewichten en vooroordelen) over het algemeen krachtiger en performanter zijn en in staat zijn om op een hoger algemeen niveau te presteren bij meer gevarieerde taken.

Kleinere modellen kunnen echter een betere efficiëntie bieden voor edge- of realtime-applicaties waarbij latentie en resourcebeperkingen van cruciaal belang zijn.

De bepalende innovatie in deze serie is de introductie van native functieaanroep in een vision-taalmodel, waardoor direct gebruik mogelijk is van tools zoals zoeken, bijsnijden of kaartherkenning met visuele invoer.

Met een contextlengte van 128.000 tokens (equivalent aan de tekst van een roman van 300 pagina’s die wordt uitgewisseld in een enkele input/output-interactie met de gebruiker) en state-of-the-art (SoTA) resultaten over meer dan 20 benchmarks, positioneert de GLM-4.6V-serie zichzelf als een zeer competitief alternatief voor zowel gesloten als open-source VLM’s. Het is beschikbaar in de volgende formaten:

Licenties en zakelijk gebruik

GLM‑4.6V en GLM‑4.6V‑Flash worden gedistribueerd onder de MIJN licentieeen permissieve open-sourcelicentie die gratis commercieel en niet-commercieel gebruik, wijziging, herdistributie en lokale implementatie mogelijk maakt zonder verplichting tot open-source afgeleide werken.

Dit licentiemodel maakt de serie geschikt voor adoptie door ondernemingen, inclusief scenario’s die volledige controle over de infrastructuur, naleving van intern bestuur of ‘air-gapped’-omgevingen vereisen.

Modelgewichten en documentatie worden openbaar gehost op Knuffelend gezichtmet ondersteunende code en tooling beschikbaar op GitHub.

De MIT-licentie garandeert maximale flexibiliteit voor integratie in eigen systemen, inclusief interne tools, productiepijplijnen en edge-implementaties.

Architectuur en technische mogelijkheden

De GLM-4.6V-modellen volgen een conventionele encoder-decoder-architectuur met aanzienlijke aanpassingen voor multimodale invoer.

Beide modellen zijn voorzien van een Vision Transformer (ViT)-encoder, gebaseerd op AIMv2-Huge, en een MLP-projector om visuele kenmerken uit te lijnen met een Large Language Model (LLM)-decoder.

Video-invoer profiteert van 3D-convoluties en temporele compressie, terwijl ruimtelijke codering wordt afgehandeld met behulp van 2D-RoPE en bicubische interpolatie van absolute positionele inbedding.

Een belangrijk technisch kenmerk is de ondersteuning van het systeem voor willekeurige beeldresoluties en beeldverhoudingen, inclusief brede panoramische ingangen tot 200:1.

Naast het parseren van statische afbeeldingen en documenten, kan GLM-4.6V tijdelijke reeksen videoframes met expliciete tijdstempeltokens opnemen, waardoor robuust temporeel redeneren mogelijk wordt.

Aan de decoderingskant ondersteunt het model het genereren van tokens, afgestemd op protocollen voor het aanroepen van functies, waardoor gestructureerd redeneren over tekst-, afbeelding- en tool-uitvoer mogelijk is. Dit wordt ondersteund door een uitgebreide tokenizer-vocabulaire en uitvoeropmaaksjablonen om consistente API- of agent-compatibiliteit te garanderen.

Native multimodaal gereedschapsgebruik

GLM-4.6V introduceert native multimodale functieaanroepen, waardoor visuele assets, zoals schermafbeeldingen, afbeeldingen en documenten, rechtstreeks als parameters aan tools kunnen worden doorgegeven. Dit elimineert de noodzaak van tussentijdse conversies van alleen tekst, die historisch gezien informatieverlies en complexiteit met zich meebrachten.

Het gereedschapsaanroepmechanisme werkt bidirectioneel:

  • Met invoertools kunnen afbeeldingen of video’s rechtstreeks worden doorgegeven (bijvoorbeeld documentpagina’s om bij te snijden of te analyseren).

  • Uitvoertools zoals grafiekrenderers of web-snapshot-hulpprogramma’s retourneren visuele gegevens, die GLM-4.6V rechtstreeks in de redeneringsketen integreert.

In de praktijk betekent dit dat de GLM-4.6V taken kan uitvoeren zoals:

  • Gestructureerde rapporten genereren van documenten met verschillende formaten

  • Uitvoeren van visuele audits van kandidaat-afbeeldingen

  • Automatisch bijsnijden van figuren uit papier tijdens het genereren

  • Visuele zoekopdrachten op internet uitvoeren en multimodale vragen beantwoorden

Benchmarks voor hoge prestaties vergeleken met andere modellen van vergelijkbare grootte

GLM-4.6V werd geëvalueerd op basis van meer dan twintig openbare benchmarks, waaronder algemene VQA, diagrambegrip, OCR, STEM-redenering, frontend-replicatie en multimodale agenten.

Z.ai GLM-4.6V benchmarkvergelijkingstabel. Krediet: Z.ai

Volgens de benchmarkgrafiek vrijgegeven door Zhipu AI:

  • GLM-4.6V (106B) behaalt SoTA- of bijna-SoTA-scores onder open-sourcemodellen van vergelijkbare grootte (106B) op MMBench, MathVista, MMLongBench, ChartQAPro, RefCOCO, TreeBench en meer.

  • GLM-4.6V-Flash (9B) presteert beter dan andere lichtgewicht modellen (bijv. Qwen3-VL-8B, GLM-4.1V-9B) in bijna alle geteste categorieën.

  • Dankzij het 128K-tokenvenster van het 106B-model presteert het beter dan grotere modellen zoals Step-3 (321B) en Qwen3-VL-235B op het gebied van documenttaken met lange context, video-samenvatting en gestructureerd multimodaal redeneren.

Voorbeeldscores van het scorebord zijn onder meer:

  • MathVista: 88,2 (GLM-4.6V) versus 84,6 (GLM-4,5V) versus 81,4 (Qwen3-VL-8B)

  • WebVoyager: 81,0 versus 68,4 (Qwen3-VL-8B)

  • Ref-L4-test: 88,9 vs. 89,5 (GLM-4.5V), maar met betere aardingsgetrouwheid bij 87,7 (Flash) vs. 86,8

Beide modellen zijn geëvalueerd met behulp van de vLLM-inferentiebackend en ondersteunen SGLang voor op video gebaseerde taken.

Frontend-automatisering en lange-contextworkflows

Zhipu AI benadrukte het vermogen van GLM-4.6V om frontend-ontwikkelingsworkflows te ondersteunen. Het model kan:

  • Repliceer pixelnauwkeurige HTML/CSS/JS van UI-screenshots

  • Accepteer bewerkingsopdrachten in natuurlijke taal om lay-outs te wijzigen

  • Identificeer en manipuleer specifieke UI-componenten visueel

Deze mogelijkheid is geïntegreerd in een end-to-end visuele programmeerinterface, waarbij het model de lay-out, ontwerpintentie en uitvoercode herhaalt met behulp van het oorspronkelijke begrip van schermafbeeldingen.

In scenario’s met lange documenten kan GLM-4.6V tot 128.000 tokens verwerken, waardoor één enkele gevolgtrekking mogelijk is:

Zhipu AI rapporteerde een succesvol gebruik van het model bij financiële analyses van corpora met meerdere documenten en bij het samenvatten van volledige sportuitzendingen met tijdstempelgebeurtenisdetectie.

Training en versterkingsleren

Het model werd getraind met behulp van pre-training in meerdere fasen, gevolgd door gesuperviseerde fijnafstemming (SFT) en versterkend leren (RL). Belangrijke innovaties zijn onder meer:

  • Curriculum Sampling (RLCS): Past dynamisch de moeilijkheidsgraad van trainingsvoorbeelden aan op basis van de voortgang van het model

  • Beloningssystemen voor meerdere domeinen: taakspecifieke verificateurs voor STEM, diagramredenering, GUI-agents, video-QA en ruimtelijke gronding

  • Functiebewuste training: maakt gebruik van gestructureerde tags (bijv. , ) om de redenering en de antwoordopmaak op elkaar af te stemmen

De versterkingsleerpijplijn legt de nadruk op verifieerbare beloningen (RLVR) boven menselijke feedback (RLHF) voor schaalbaarheid, en vermijdt KL/entropieverliezen om training in multimodale domeinen te stabiliseren

Prijzen (API)

Zhipu AI biedt concurrerende prijzen voor de GLM-4.6V-serie, waarbij zowel het vlaggenschipmodel als de lichtgewicht variant zijn gepositioneerd voor hoge toegankelijkheid.

Vergeleken met grote LLM’s met visie en tekst-eerst, is GLM-4.6V een van de meest kostenefficiënte voor multimodaal redeneren op schaal. Hieronder vindt u een vergelijkende momentopname van de prijzen van verschillende providers:

USD per 1 miljoen tokens – gesorteerd op laagste → hoogste totale kosten

Model

Invoer

Uitvoer

Totale kosten

Bron

Qwen3 Turbo

$ 0,05

$ 0,20

$ 0,25

Alibaba-wolk

ERNIE 4.5 Turbo

$ 0,11

$ 0,45

$ 0,56

Qianfan

GLM‑4,6V

$ 0,30

$ 0,90

$ 1,20

Z.AI

Grok 4.1 Snel (redenering)

$ 0,20

$ 0,50

$ 0,70

xAI

Grok 4.1 Snel (niet redenerend)

$ 0,20

$ 0,50

$ 0,70

xAI

deepseek-chat (V3.2-Exp)

$ 0,28

$ 0,42

$ 0,70

Diepzoeken

deepseek-reasoner (V3.2-Exp)

$ 0,28

$ 0,42

$ 0,70

Diepzoeken

Qwen3 Plus

$ 0,40

$ 1,20

$ 1,60

Alibaba-wolk

ERNIE 5.0

$ 0,85

$ 3,40

$ 4,25

Qianfan

Qwen-Max

$ 1,60

$ 6,40

$ 8,00

Alibaba-wolk

GPT-5.1

$ 1,25

$ 10,00

$ 11,25

OpenAI

Gemini 2.5 Pro (≤200K)

$ 1,25

$ 10,00

$ 11,25

Googlen

Gemini 3 Pro (≤200K)

$ 2,00

$ 12,00

$ 14,00

Googlen

Gemini 2.5 Pro (>200K)

$ 2,50

$ 15,00

$ 17,50

Googlen

Grok 4 (0709)

$ 3,00

$ 15,00

$ 18,00

xAI

Gemini 3 Pro (>200K)

$ 4,00

$ 18,00

$ 22,00

Googlen

Sluit werk 4.1

$ 15,00

$ 75,00

$ 90,00

Antropisch

Eerdere releases: GLM‑4.5-serie en Enterprise-applicaties

Vóór GLM-4.6V bracht Z.ai medio 2025 de GLM-4.5-familie uit, waarmee het bedrijf een serieuze concurrent werd op het gebied van open-source LLM-ontwikkeling.

Het vlaggenschip GLM‑4.5 en het kleinere broertje GLM‑4.5‑Air ondersteunen beide het redeneren, het gebruik van tools, het coderen en het gedrag van agenten, terwijl ze sterke prestaties leveren in standaard benchmarks.

De modellen introduceerden dubbele redeneermodi (“denken” en “niet-denken”) en konden automatisch volledige PowerPoint-presentaties genereren vanaf één enkele prompt – een functie die geschikt was voor gebruik in bedrijfsrapportage, onderwijs en interne communicatieworkflows. Z.ai heeft de GLM-4.5-serie ook uitgebreid met extra varianten zoals GLM-4.5-X, AirX en Flash, gericht op ultrasnelle gevolgtrekkingen en goedkope scenario’s.

Samen positioneren deze functies de GLM‑4.5-serie als een kosteneffectief, open en productieklaar alternatief voor ondernemingen die behoefte hebben aan autonomie op het gebied van modelimplementatie, levenscyclusbeheer en integratiepijplijn.

Implicaties voor het ecosysteem

De GLM-4.6V-release vertegenwoordigt een opmerkelijke vooruitgang in open-source multimodale AI. Hoewel er het afgelopen jaar grote aantallen visie-taalmodellen zijn verschenen, bieden slechts weinigen het volgende aan:

  • Geïntegreerd visueel hulpmiddelgebruik

  • Gestructureerde multimodale opwekking

  • Agent-georiënteerd geheugen en beslissingslogica

De nadruk van Zhipu AI op het “sluiten van de cirkel” van perceptie naar actie via native function calling markeert een stap in de richting van agentische multimodale systemen.

De architectuur en de trainingspijplijn van het model laten een voortdurende evolutie van de GLM-familie zien, waardoor deze concurrerend wordt gepositioneerd naast aanbiedingen als OpenAI’s GPT-4V en Google DeepMind’s Gemini-VL.

Afhaalmaaltijden voor bedrijfsleiders

Met GLM-4.6V introduceert Zhipu AI een open-source VLM die in staat is tot het gebruik van native visuele tools, redeneren in lange contexten en frontend-automatisering. Het zet nieuwe prestatiekenmerken onder modellen van vergelijkbare grootte en biedt een schaalbaar platform voor het bouwen van agentische, multimodale AI-systemen.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in