Home Nieuws Z.ai’s open source GLM-Image verslaat Google’s Nano Banana Pro op het gebied...

Z.ai’s open source GLM-Image verslaat Google’s Nano Banana Pro op het gebied van complexe tekstweergave, maar niet op esthetisch vlak

1
0
Z.ai’s open source GLM-Image verslaat Google’s Nano Banana Pro op het gebied van complexe tekstweergave, maar niet op esthetisch vlak

De twee grote verhalen over AI in 2026 tot nu toe zijn de ongelooflijke opkomst van AI gebruik en lof voor Anthropic’s Claude Code en een soortgelijke enorme boost in gebruikersadoptie voor Google’s Gemini 3 AI-modelfamilie eind vorig jaar uitgebracht – waarvan de laatste inclusief Nano Banana Pro (ook bekend als Gemini 3 Pro Image)een krachtig, snel en flexibel model voor het genereren van afbeeldingen dat complexe, tekstrijke infographics snel en nauwkeurig weergeeft, waardoor het uitstekend geschikt is voor zakelijk gebruik (denk aan: materiaal, trainingen, onboarding, stationair, enz.).

Maar dit zijn natuurlijk allebei eigen aanbiedingen. En toch, open source-rivalen niet geweest ver achter.

Deze week hebben we een nieuw open source alternatief voor Nano Banana Pro gekregen in de categorie van nauwkeurige, tekstrijke afbeeldingsgeneratoren: GLM-afbeeldingeen nieuw open-sourcemodel met 16 miljard parameters van ronlangs openbare Chinese startup Z.ai.

Door de industriestandaard ‘pure diffusie’-architectuur, die de meeste toonaangevende modellen voor beeldgeneratoren aanstuurt, achter zich te laten ten gunste van een hybride auto-regressief (AR) + diffusie-ontwerp, heeft GLM-Image bereikt wat voorheen werd beschouwd als het domein van gesloten, eigen modellen: state-of-the-art prestaties bij het genereren van tekstrijke, informatierijke beelden zoals infographics, dia’s en technische diagrammen.

Het verslaat zelfs Google’s Nano Banana Pro op de gedeelde versie van z.ai – hoewel mijn eigen snelle gebruik in de praktijk vond dat het veel minder nauwkeurig was bij het volgen van instructies en het weergeven van tekst (en andere gebruikers lijken het daarmee eens te zijn).

Maar voor bedrijven die op zoek zijn naar kosteneffectieve en aanpasbare alternatieven met gebruiksvriendelijke licenties voor propriëtaire AI-modellen, kan z.ai’s GLM-Image “goed genoeg” zijn of zelfs meer om de taak van een primaire beeldgenerator over te nemen, afhankelijk van hun specifieke gebruiksscenario’s, behoeften en vereisten.

De maatstaf: het omverwerpen van de gepatenteerde reus

Het meest overtuigende argument voor GLM-Image is niet de esthetiek, maar de precisie. In de CVTG-2k-benchmark (complexe visuele tekstgeneratie), die het vermogen van een model evalueert om nauwkeurige tekst over meerdere delen van een afbeelding weer te geven, GLM-Image scoorde een woordnauwkeurigheidsgemiddelde van 0,9116.

Om dat aantal in perspectief te plaatsen: Nano Banana 2.0 oftewel Pro, vaak genoemd als maatstaf voor bedrijfsbetrouwbaarheid, scoorde 0,7788. Dit is geen marginale winst; het is een generatiesprong in semantische controle.

GLM-Image CVTG-2K benchmark-vergelijkingstabel. Krediet: z.ai

Hoewel Nano Banana Pro een lichte voorsprong behoudt bij het genereren van lange tekst in één stream in het Engels (0,9808 versus 0,9524 van GLM-Image), hapert het aanzienlijk wanneer de complexiteit toeneemt.

Naarmate het aantal tekstgebieden groeit, blijft de nauwkeurigheid van Nano Banana in de jaren ’70, terwijl GLM-Image een nauwkeurigheid van >90% behoudt, zelfs met meerdere afzonderlijke tekstelementen.

Voor bedrijfsgebruiksscenario’s (waarbij een marketingdia een titel, drie opsommingstekens en een bijschrift tegelijk nodig heeft) is deze betrouwbaarheid het verschil tussen een productieklaar item en een hallucinatie.

Helaas is mijn eigen gebruik van a demo gevolgtrekking van GLM-Image op knuffelgezicht bleek minder betrouwbaar dan de benchmarks zouden doen vermoeden.

Mijn verzoek om een ​​”infographic te genereren waarin alle belangrijke sterrenbeelden die nu zichtbaar zijn vanaf het noordelijk halfrond van de VS op 14 januari 2026 worden gelabeld en vervaagde afbeeldingen van hun naamgenoten achter de sterverbindingslijndiagrammen worden geplaatst”, resulteerde niet in wat ik vroeg, maar voldeed in plaats daarvan misschien aan 20% of minder van de gespecificeerde inhoud.

GLM-Image constellatiediagram januari 2026

Credit: VentureBeat gemaakt met GLM-Image op de ruimte van multimodalart op Hugging Face

Maar Google’s Nano Banana Pro behandelde het als een kampioen, zoals je hieronder zult zien:

Google Nano Banana Pro-constellatiediagram januari 2026

VentureBeat gemaakt met Google Gemini

Natuurlijk is een groot deel hiervan ongetwijfeld te wijten aan het feit dat Nano Banana Pro is geïntegreerd met Google Search, zodat het informatie op internet kan opzoeken als reactie op mijn vraag, terwijl GLM-Image dat niet is en daarom waarschijnlijk veel specifiekere instructies vereist over de daadwerkelijke tekst en andere inhoud die de afbeelding zou moeten bevatten.

Maar toch, als je er eenmaal aan gewend bent om enkele eenvoudige instructies te typen en via deze laatste een volledig onderzocht en goed gevuld beeld te krijgen, is het moeilijk voor te stellen dat je een ondermaats alternatief zou inzetten, tenzij je heel specifieke eisen hebt op het gebied van kosten, datalocatie en beveiliging – of de aanpasbaarheidsbehoeften van je organisatie zo groot zijn.

Verder, Nano Banana Pro overtrof GLM-Image nog steeds in termen van pure esthetiek — met behulp van de OneIG-benchmark, Nano Banana 2.0 staat op 0,578 versus GLM-Image op 0,528 – en inderdaad, zoals de afbeelding bovenaan dit artikel aangeeft, geeft GLM-Image niet altijd een even helder, fijn gedetailleerd en aangenaam beeld weer als de generator van Google.

De architecturale verschuiving: waarom ‘hybride’ ertoe doet

Waarom slaagt GLM-Image waar pure diffusiemodellen falen? Het antwoord ligt in de beslissing van Z.ai om het genereren van beelden eerst als een redeneerprobleem en als tweede als schilderprobleem te beschouwen.

Standaard latente diffusiemodellen (zoals Stable Diffusion of Flux) proberen tegelijkertijd de globale compositie en fijnkorrelige textuur te verwerken.

Dit leidt vaak tot ‘semantische drift’, waarbij het model specifieke instructies vergeet (zoals ‘plaats de tekst linksboven’), omdat het zich erop richt de pixels er realistisch uit te laten zien.

GLM-Image ontkoppelt deze doelstellingen in twee gespecialiseerde ‘hersenen’ met in totaal 16 miljard parameters:

  1. De autoregressieve generator (de “architect”): Deze module met 9 miljard parameters, geïnitialiseerd vanuit het GLM-4-9B-taalmodel van Z.ai, verwerkt de prompt op logische wijze. Het genereert geen pixels; in plaats daarvan voert het “visuele tokens” uit, met name semantische VQ-tokens. Deze tokens fungeren als een gecomprimeerde blauwdruk van de afbeelding, waarbij de lay-out, tekstplaatsing en objectrelaties worden vastgelegd voordat er een enkele pixel wordt getekend. Dit maakt gebruik van de redeneerkracht van een LLM, waardoor het model complexe instructies (bijvoorbeeld “Een tutorial met vier panelen”) kan “begrijpen” op een manier die voorspellers van diffusieruis niet kunnen.

  2. De diffusiedecoder (de “Schilder”): Zodra de lay-out is vergrendeld door de AR-module, neemt een Diffusion Transformer (DiT)-decoder met 7 miljard parameters het over. Gebaseerd op de CogView4-architectuur, vult deze module de hoogfrequente details in: textuur, verlichting en stijl.

Door het ‘wat’ (AR) te scheiden van het ‘hoe’ (diffusie), lost GLM-Image het probleem van ‘dichte kennis’ op. De AR-module zorgt ervoor dat de tekst correct wordt gespeld en nauwkeurig wordt geplaatst, terwijl de Diffusion-module ervoor zorgt dat het eindresultaat er fotorealistisch uitziet.

De hybride trainen: een evolutie in meerdere fasen

De geheime saus achter de prestaties van GLM-Image is niet alleen de architectuur; het is een zeer specifiek, uit meerdere fasen bestaand trainingscurriculum dat het model dwingt eerst structuur te leren vóór details.

Het trainingsproces begon met het bevriezen van de tekstwoordinbeddingslaag van het originele GLM-4-model, terwijl een nieuwe “visiewoordinbedding” -laag en een gespecialiseerd vision LM-hoofd werden getraind.

Hierdoor kon het model visuele tokens in dezelfde semantische ruimte als tekst projecteren, waardoor de LLM effectief leerde om in afbeeldingen te ‘spreken’. Cruciaal was dat Z.ai MRoPE (Multidimensional Rotary Positional Embedding) implementeerde om de complexe interleaving van tekst en afbeeldingen aan te kunnen die nodig zijn voor gemengd-modale generatie.

Het model werd vervolgens onderworpen aan een progressieve resolutiestrategie:

  • Fase 1 (256px): Het model trainde op sequenties met een lage resolutie van 256 tokens met behulp van een eenvoudige rasterscanvolgorde.

  • Fase 2 (512px – 1024px): Naarmate de resolutie toenam naar een gemengd niveau (512px tot 1024px), constateerde het team een ​​afname van de bestuurbaarheid. Om dit op te lossen, hebben ze het eenvoudige scannen opgegeven voor een progressieve generatiestrategie.

In dit gevorderde stadium genereert het model eerst ongeveer 256 “lay-outtokens” uit een gedownsampelde versie van de doelafbeelding.

Deze tokens fungeren als structureel anker. Door het trainingsgewicht van deze voorlopige tokens te vergroten, dwong het team het model om prioriteit te geven aan de globale lay-out (waar de dingen zijn) voordat de details met hoge resolutie werden gegenereerd. Dit is de reden waarom GLM-Image uitblinkt in posters en diagrammen: het “schetst” eerst de lay-out en zorgt ervoor dat de compositie wiskundig verantwoord is voordat de pixels worden weergegeven.

Licentieanalyse: een toegeeflijke, zij het enigszins dubbelzinnige, overwinning voor ondernemingen

Voor zakelijke CTO’s en juridische teams is de licentiestructuur van GLM-Image een aanzienlijk concurrentievoordeel ten opzichte van propriëtaire API’s, hoewel er een klein voorbehoud geldt met betrekking tot documentatie.

De dubbelzinnigheid: er is een kleine discrepantie in de releasematerialen. De Hugging Face-repository van het model expliciet tagt de gewichten met de MIT-licentie.

De bijbehorende GitHub-repository en documentatie rVerwijs naar de Apache-licentie 2.0.

Waarom dit nog steeds goed nieuws is: ondanks de discrepantie zijn beide licenties de “gouden standaard” voor ondernemingsvriendelijke open source.

  • Commerciële levensvatbaarheid: Zowel MIT als Apache 2.0 maken onbeperkt commercieel gebruik, aanpassing en distributie mogelijk. In tegenstelling tot de “open rail”-licenties die gebruikelijk zijn in andere beeldmodellen (die vaak specifieke gebruiksscenario’s beperken) of “research-only”-licenties (zoals vroege LLaMA-releases), is GLM-Image feitelijk onmiddellijk “open for business”.

  • Het Apache-voordeel (indien van toepassing): Als de code onder Apache 2.0 valt, is dit vooral voor grote organisaties gunstig. Apache 2.0 bevat een expliciete clausule voor het verlenen van patenten, wat betekent dat door bij te dragen aan of gebruik te maken van de software, bijdragers een patentlicentie aan gebruikers verlenen. Dit verkleint het risico op toekomstige octrooigeschillen – een grote zorg voor bedrijven die producten bouwen bovenop open-source codebases.

  • Geen “Infectie”: Geen van beide licenties is “copyleft” (zoals GPL). U kunt GLM-Image integreren in een eigen workflow of product zonder dat u gedwongen wordt uw eigen intellectuele eigendom open te sourcen.

Voor ontwikkelaars is de aanbeveling eenvoudig: behandel de gewichten als MIT (volgens de repository die ze host) en de gevolgtrekkingscode als Apache 2.0. Beide paden maken de weg vrij voor interne hosting, het afstemmen van gevoelige gegevens en het bouwen van commerciële producten zonder een leverancierscontract.

Het ‘waarom nu’ voor bedrijfsactiviteiten

Voor de zakelijke beslisser komt GLM-Image op een cruciaal keerpunt. Bedrijven gaan verder dan het gebruik van generatieve AI voor abstracte blogkoppen en begeven zich naar functioneel terrein: meertalige lokalisatie van advertenties, geautomatiseerde generatie van UI-mockups en dynamisch educatief materiaal.

In deze workflows is een foutenpercentage van 5% bij het weergeven van tekst een belemmering. Als een model een mooie dia genereert maar de productnaam verkeerd spelt, is het asset nutteloos. De benchmarks suggereren dat GLM-Image het eerste open-sourcemodel is dat de drempel van betrouwbaarheid voor deze complexe taken overschrijdt.

Bovendien verandert de permissieve licentie een fundamentele verandering in de economische aspecten van de inzet. Terwijl Nano Banana Pro bedrijven vastlegt aan een per-call API-kostenstructuur of restrictieve cloudcontracten, kan GLM-Image zelf worden gehost, worden afgestemd op eigen merkactiva en worden geïntegreerd in veilige, air-gapped pijplijnen zonder zorgen over gegevenslekken.

Het addertje onder het gras: zware computervereisten

De afweging voor dit redeneervermogen is de rekenintensiteit. De architectuur met twee modellen is zwaar. Het genereren van één enkele afbeelding van 2048 x 2048 duurt ongeveer 252 seconden op een H100 GPU. Dit is aanzienlijk langzamer dan sterk geoptimaliseerde, kleinere diffusiemodellen.

Voor hoogwaardige assets (waarbij het alternatief een menselijke ontwerper is die uren in Photoshop doorbrengt) is deze latentie echter acceptabel.

Z.ai biedt ook een beheerde API voor $ 0,015 per afbeeldingen biedt een brug voor teams die de mogelijkheden willen testen zonder onmiddellijk in H100-clusters te investeren.

GLM-Image is een signaal dat de open-sourcegemeenschap niet langer alleen maar snel volgende propriëtaire laboratoria is; in specifieke, hoogwaardige branches zoals het genereren van kennis met een hoge kennisdichtheid, bepalen zij nu het tempo. Voor ondernemingen is de boodschap duidelijk: als uw operationele knelpunt de betrouwbaarheid van complexe visuele inhoud is, is de oplossing niet langer noodzakelijkerwijs een gesloten Google-product; het kan een open-sourcemodel zijn dat u zelf kunt uitvoeren.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in