De afgelopen twee jaar zijn bedrijven die open-weight-modellen hebben geëvalueerd geconfronteerd met een lastige afweging. De Gemma-lijn van Google leverde consequent sterke prestaties, maar de aangepaste licentie – met gebruiksbeperkingen en voorwaarden die Google naar believen kon updaten – duwde veel teams in de richting van Mistral of Alibaba’s Qwen. Juridische beoordeling zorgde voor extra wrijving. Complianceteams signaleerden randgevallen. En hoe capabel Gemma 3 ook was, ‘open’ met sterretjes is niet hetzelfde als open.
Gemma 4 elimineert die wrijving volledig. De nieuwste open modelfamilie van Google DeepMind wordt volgens een standaard verzonden Apache 2.0-licentie – dezelfde tolerante termen die worden gebruikt door Qwen, Mistral, Arcee en het grootste deel van het open-weight ecosysteem.
Geen aangepaste clausules, geen uitzonderingen op het gebied van “schadelijk gebruik” die juridische interpretatie vereisten, geen beperkingen op herdistributie of commerciële inzet. Voor zakelijke teams die hadden gewacht tot Google onder dezelfde licentievoorwaarden zou spelen als de rest van het veld, is het wachten voorbij.
De timing is opmerkelijk. Nu sommige Chinese AI-laboratoria (met name de nieuwste Qwen-modellen van Alibaba, Qwen3.5 Omni en Qwen 3.6 Plus) zijn begonnen zich terug te trekken uit volledig open releases voor hun nieuwste modellen, beweegt Google zich in de tegenovergestelde richting: ze openen de meest capabele Gemma-release tot nu toe, terwijl ze expliciet stellen dat de architectuur voortkomt uit de commerciële Tweeling 3 onderzoek.
Vier modellen, twee niveaus: van rand tot werkstation in één familie
Gemma 4 arriveert als vier verschillende modellen, georganiseerd in twee implementatielagen. De laag ‘werkstation’ omvat een Dicht model met 31B-parameters en een 26B A4B Mixtuur van experts-model — beide ondersteunen tekst- en beeldinvoer met 256K-token contextvensters. De “edge”-laag bestaat uit de E2B En E4Bcompacte modellen ontworpen voor telefoons, embedded apparaten en laptops, die tekst, afbeeldingen en audio ondersteunen met 128K-token contextvensters.
De naamgevingsconventie vergt wat uitpakken. Het voorvoegsel ‘E’ geeft ‘effectieve parameters’ aan – de E2B heeft 2,3 miljard effectieve parameters, maar 5,1 miljard in totaal, omdat elke decoderlaag zijn eigen kleine inbeddingstabel heeft via een techniek die Google aanroept Inbedding per laag (PLE). Deze tabellen zijn groot op schijf, maar goedkoop om te berekenen. Daarom werkt het model als een 2B, terwijl het technisch gezien meer weegt.
De “A” in 26B A4B staat voor “actieve parameters” – slechts 3,8 miljard van de in totaal 25,2 miljard parameters van het MoE-model worden geactiveerd tijdens gevolgtrekking, wat betekent dat het ruwweg intelligentie van de 26B-klasse levert met rekenkosten die vergelijkbaar zijn met die van een 4B-model.
Voor IT-leiders die de GPU-vereisten bepalen, vertaalt dit zich rechtstreeks in implementatieflexibiliteit. Het MoE-model kan draaien op GPU’s van consumentenkwaliteit en zou snel moeten verschijnen in tools als Ollama en LM Studio. Het 31B-dichte model vereist meer hoofdruimte – denk aan een NVIDIA H100 of RTX 6000 Pro voor ongekwantiseerde gevolgtrekkingen – maar Google verzendt ook Quantization-Aware Training (QAT)-controlepunten om de kwaliteit bij lagere precisie te behouden. Op Google Cloud kunnen beide werkstationmodellen nu in een volledig serverloze configuratie draaien via Cloud-run met NVIDIA RTX Pro 6000 GPU’s, die bij inactiviteit naar nul draaien.
De MoE-weddenschap: 128 kleine experts om te besparen op gevolgtrekkingskosten
De architectonische keuzes binnen het 26B A4B-model verdienen bijzondere aandacht van teams die de inferentie-economie evalueren. In plaats van het patroon te volgen van recente grote MoE-modellen die gebruik maken van een handvol grote experts, ging Google akkoord 128 kleine expertswaarbij er acht per token worden geactiveerd, plus één gedeelde altijd-aan-expert. Het resultaat is een model dat concurrerend presteert met compacte modellen in het 27B-31B-bereik, terwijl het tijdens inferentie ongeveer de snelheid heeft van een 4B-model.
Dit is niet alleen maar een nieuwsgierigheidsmaatstaf; het heeft rechtstreeks invloed op de servicekosten. Een model dat redenering van 27B-klasse levert bij een doorvoer van 4B-klasse betekent minder GPU’s, lagere latentie en goedkopere gevolgtrekkingen per token in de productie. Voor organisaties die codeerassistenten, documentverwerkingspijplijnen of multi-turn agent-workflows gebruiken, is de MoE-variant wellicht de meest praktische keuze in de familie.
Beide werkstationmodellen gebruiken een hybride aandachtsmechanisme dat de lokale aandacht door het schuifraam verweven met volledige mondiale aandacht, waarbij de laatste laag altijd globaal is. Dit ontwerp maakt het 256K-contextvenster mogelijk terwijl het geheugengebruik beheersbaar blijft – een belangrijke overweging voor teams die lange documenten, codebases of gesprekken met meerdere agenten verwerken.
Native multimodaliteit: Visie, audio en functieoproepen zijn vanaf het begin ingebakken
Eerdere generaties open modellen behandelden multimodaliteit doorgaans als een add-on. Vision-encoders werden op tekstbackbones vastgeschroefd. Voor audio was een externe ASR-pijplijn zoals Whisper vereist. Functieaanroepen waren gebaseerd op snelle engineering en de hoop dat het model zou samenwerken. Gemma 4 integreert al deze mogelijkheden op architectuurniveau.
Alle vier de modellen hanteren beeldinvoer met variabele beeldverhouding met configureerbare visuele tokenbudgetten – een betekenisvolle verbetering ten opzichte van de oudere vision-encoder van Gemma 3n, die moeite had met OCR en documentbegrip. De nieuwe encoder ondersteunt budgetten van 70 tot 1.120 tokens per afbeelding, waardoor ontwikkelaars details kunnen inruilen voor rekenkracht, afhankelijk van de taak.
Lagere budgetten werken voor classificatie en ondertiteling; hogere budgetten kunnen OCR, documentparsing en fijnmazige visuele analyse verwerken. Multi-beeld- en video-invoer (verwerkt als framereeksen) worden native ondersteund, waardoor visueel redeneren over meerdere documenten of schermafbeeldingen mogelijk wordt.
De twee randmodellen voegen toe native audioverwerking — automatische spraakherkenning en spraak-naar-vertaalde tekst, allemaal op het apparaat. De audio-encoder is gecomprimeerd tot 305 miljoen parameters, vergeleken met 681 miljoen in Gemma 3n, terwijl de frameduur is gedaald van 160 ms naar 40 ms voor een responsievere transcriptie. Voor teams die voice-first-applicaties bouwen die data lokaal moeten houden – denk aan gezondheidszorg, buitendienst of meertalige klantinteractie – is het uitvoeren van ASR, vertaling, redenering en functieoproepen in één model op een telefoon of edge-apparaat een echte architecturale vereenvoudiging.
Functie bellen is ook in alle vier de modellen terug te vinden, op basis van onderzoek van Google FunctieGemma release eind vorig jaar. In tegenstelling tot eerdere benaderingen die afhankelijk waren van het volgen van instructies om modellen over te halen tot gestructureerd toolgebruik, werd de functieaanroep van Gemma 4 vanaf de basis in het model getraind – geoptimaliseerd voor multi-turn agentische stromen met meerdere tools. Dit komt naar voren in agentische benchmarks, maar wat nog belangrijker is, het vermindert de snelle engineering-overhead die bedrijfsteams doorgaans investeren bij het bouwen van tool-gebruikende agenten.
Benchmarks in context: waar Gemma 4 in een druk veld belandt
De benchmarkcijfers vertellen een duidelijk verhaal over generatieverbetering. Het 31B-dichte model scoort 89,2% vinden 2026 leuk (een rigoureuze test voor wiskundig redeneren), 80,0% op LiveCodeBench v6en raakt een Codeforces ELO van 2.150 – cijfers die niet zo lang geleden tot de grensklasse zouden behoren van bedrijfseigen modellen. Op visie bereikt MMMU Pro 76,9% en MATH-Vision 85,6%.
Ter vergelijking: Gemma 3 27B scoorde 20,8% op AIME en 29,1% op LiveCodeBench zonder na te denken.
Het MoE-model volgt het nauwgezet: 88,3% op AIME 2026, 77,1% op LiveCodeBench en 82,3% op GPQA Diamond – een benchmark voor wetenschappelijk redeneren op universitair niveau. De prestatiekloof tussen de MoE-varianten en de compacte varianten is bescheiden gezien het aanzienlijke kostenvoordeel van de MoE-architectuur.
De edge-modellen blinken uit boven hun gewichtsklasse. De E4B haalt 42,5% op AIME 2026 en 52,0% op LiveCodeBench – sterk voor een model dat op een T4 GPU draait. De E2B, nog kleiner, beheert respectievelijk 37,5% en 44,0%. Beide presteren aanzienlijk beter dan Gemma 3 27B (zonder na te denken) op de meeste benchmarks, ondanks dat ze een fractie van de grootte zijn, dankzij het ingebouwde redeneervermogen.
Deze cijfers moeten worden gezien in het licht van een steeds competitiever open-weight landschap. Qwen 3.5, GLM-5 en Kimi K2.5 concurreren allemaal agressief in dit parameterbereik, en het veld beweegt snel. Wat Gemma 4 onderscheidt is niet zozeer een enkele benchmark, maar meer de combinatie: sterke redenering, native multimodaliteit voor tekst, beeld en audio, functieaanroepen, 256K-context en een echt tolerante licentie – alles in één modelfamilie met implementatieopties van edge-apparaten tot serverloos in de cloud.
Waar bedrijfsteams nu naar moeten kijken
Google brengt zowel vooraf getrainde basismodellen als op instructies afgestemde varianten uit, wat van belang is voor organisaties die van plan zijn zich te verfijnen voor specifieke domeinen. De Gemma-basismodellen zijn historisch gezien een sterke basis geweest voor training op maat, en de Apache 2.0-licentie neemt nu elke onduidelijkheid weg over de vraag of verfijnde derivaten commercieel kunnen worden ingezet.
De serverloze implementatieoptie via Cloud Run met GPU-ondersteuning is de moeite waard om te bekijken voor teams die inferentiecapaciteit nodig hebben die naar nul kan worden geschaald. Alleen betalen voor daadwerkelijke rekenkracht tijdens de inferentie – in plaats van altijd ingeschakelde GPU-instanties te behouden – zou de economie van het inzetten van open modellen in de productie op betekenisvolle wijze kunnen veranderen, met name voor interne tools en toepassingen met minder verkeer.
Google heeft laten doorschemeren dat dit misschien niet de volledige Gemma 4-familie is, en dat er waarschijnlijk nog meer modelgroottes zullen volgen. Maar de combinatie die vandaag de dag beschikbaar is – werkstation-klasse redeneermodellen en edge-klasse multimodale modellen, allemaal onder Apache 2.0, allemaal gebaseerd op Gemini 3-onderzoek – vertegenwoordigt de meest complete open model-release die Google heeft uitgebracht. Voor bedrijfsteams die hadden gewacht op de open modellen van Google om te concurreren op zowel licentievoorwaarden als prestaties, kan de evaluatie eindelijk beginnen zonder eerst de juridische afdeling te raadplegen.



