Eind vorig jaar pakte Google kortstondig de kroon op het krachtigste AI-model ter wereld met de lancering van Gemini 3 Pro – om binnen enkele weken te worden overtroffen door OpenAI en Anthropic die nieuwe modellen uitbrengen, wat gebruikelijk is in de fel competitieve AI-race.
Nu is Google terug om de troon te heroveren met een bijgewerkte versie van dat vlaggenschipmodel: Gemini 3.1 Progepositioneerd als een slimmere basislijn voor taken waarbij een eenvoudig antwoord onvoldoende is, gericht op wetenschappelijke, onderzoeks- en technische workflows die diepgaande planning en synthese vereisen.
Al, evaluaties door het externe bedrijf Artificial Analysis laten zien dat Google’s Gemini 3.1 Pro naar de voorkant van het peloton is gesprongen en opnieuw het krachtigste en meest performante AI-model ter wereld is.
Een grote sprong in de kernredenering
De belangrijkste vooruitgang in Gemini 3.1 Pro ligt in de prestaties op strenge logische benchmarks. Het meest opvallende was dat het model een geverifieerde score van 77,1% behaalde op ARC-AGI-2.
Deze specifieke benchmark is ontworpen om het vermogen van een model te evalueren om geheel nieuwe logische patronen op te lossen die het tijdens de training niet is tegengekomen.
Dit resultaat vertegenwoordigt meer dan het dubbele van de redeneerprestaties van het vorige Gemini 3 Pro-model.
Naast abstracte logica geven interne benchmarks aan dat 3.1 Pro zeer concurrerend is op gespecialiseerde domeinen:
-
Wetenschappelijke kennis: Het scoorde 94,3% op GPQA Diamond.
-
Codering: Het bereikte een Elo van 2887 op LiveCodeBench Pro en scoorde 80,6% op SWE-Bench Verified.
-
Multimodaal begrip: Het behaalde 92,6% op MMMLU.
Deze technische voordelen zijn niet slechts incrementeel; ze vertegenwoordigen een verfijning in de manier waarop het model omgaat met ‘denkende’ tokens en lange-horizontaken, waardoor een betrouwbaardere basis wordt geboden voor ontwikkelaars die autonome agenten bouwen.
Verbeterde sfeercodering en 3D-synthese
Google demonstreert het nut van het model door middel van ’toegepaste intelligentie’, waarbij de focus wordt verlegd van chatinterfaces naar functionele output.
Een van de meest opvallende kenmerken is de mogelijkheid van het model om rechtstreeks vanuit tekstprompts “vibe-gecodeerde” geanimeerde SVG’s te genereren. Omdat deze op code zijn gebaseerd in plaats van op pixels, blijven ze schaalbaar en behouden ze kleine bestandsgroottes in vergelijking met traditionele video, en bieden ze veel gedetailleerdere, representatieve en professionele beelden voor websites, presentaties en andere bedrijfstoepassingen.
Andere tentoongestelde toepassingen zijn onder meer:
-
Complexe systeemsynthese: Het model heeft met succes een openbare telemetriestroom geconfigureerd om een live lucht- en ruimtevaartdashboard te bouwen dat de baan van het internationale ruimtestation visualiseert.
-
Interactief ontwerp: In één demo codeerde 3.1 Pro een complex 3D-spreeuwgeruis dat gebruikers kunnen manipuleren via handtracking, begeleid door een generatieve audioscore.
-
Creatieve codering: Het model vertaalde de sfeervolle thema’s van Emily Brontë Wuthering Hoogten in een functioneel, modern webontwerp, dat blijk geeft van het vermogen om te redeneren op basis van toon en stijl in plaats van alleen maar letterlijke tekst.
Zakelijke impact en reacties van de gemeenschap
Enterprise-partners zijn al begonnen met het integreren van de preview-versie van 3.1 Pro en melden merkbare verbeteringen op het gebied van betrouwbaarheid en efficiëntie.
Vladislav Tankov, directeur AI bij JetBrains, merkte een kwaliteitsverbetering van 15% op ten opzichte van eerdere versies en stelde dat het model “sterker, sneller … en efficiënter is, en minder uitvoertokens vereist”. Andere reacties uit de sector zijn onder meer:
-
Databricks: CTO Hanlin Tang meldde dat het model “best-in-class resultaten” behaalde op OfficeQA, een maatstaf voor gegrond redeneren over tabellarische en ongestructureerde gegevens.
-
Radslag: Mede-oprichter Andrew Carr benadrukte het “substantieel verbeterde begrip van 3D-transformaties” van het model, en merkte op dat het al lang bestaande bugs in de rotatievolgorde in 3D-animatiepijplijnen oploste.
-
Hostinger-horizonten: Hoofd Product Dainius Kavoliunas merkte op dat het model de ‘sfeer’ achter een prompt begrijpt en de intentie vertaalt in stijlnauwkeurige code voor niet-ontwikkelaars.
Prijzen, licenties en beschikbaarheid
Voor ontwikkelaars is het meest opvallende aspect van de 3.1 Pro-release de verhouding tussen redenering en dollar. Toen Gemini 3 Pro werd gelanceerd, bevond het zich in de middenhoge prijsklasse met $ 2,00 per miljoen invoertokens voor standaardprompts. Gemini 3.1 Pro handhaaft deze exacte prijsstructuur en biedt effectief een enorme prestatie-upgrade zonder extra kosten voor API-gebruikers.
-
Invoerprijs: $ 2,00 per 1 miljoen tokens voor prompts tot 200.000; $ 4,00 per tokens van 1 miljoen voor prompts van meer dan 200.000.
-
Outputprijs: $ 12,00 per 1 miljoen tokens voor prompts tot 200.000; $ 18,00 per tokens van 1 miljoen voor prompts van meer dan 200.000.
-
Contextcaching: Gefactureerd tegen $ 0,20 tot $ 0,40 per 1 miljoen tokens, afhankelijk van de promptgrootte, plus opslagkosten van $ 4,50 per 1 miljoen tokens per uur.
-
Zoekaarding: 5.000 prompts per maand zijn gratis, gevolgd door een toeslag van $ 14 per 1.000 zoekopdrachten.
Voor consumenten wordt het model uitgerold in de Gemini-app en NotebookLM met hogere limieten voor Google AI Pro- en Ultra-abonnees.
Gevolgen voor licenties
Als een eigen model aangeboden via Vertexstudio in Google Cloud en de Gemini-API3.1 Pro volgt een standaard commercieel SaaS-model (Software as a Service) in plaats van een open-sourcelicentie.
Voor zakelijke gebruikers biedt dit ‘gefundeerd redeneren’ binnen de beveiligingsperimeter van Vertex AI, waardoor bedrijven met vertrouwen op hun eigen gegevens kunnen werken.
Met de status ‘Preview’ kan Google de veiligheid en prestaties van het model verfijnen voordat het algemeen beschikbaar komt, een gangbare praktijk bij AI-implementaties met hoge inzet.
Door de kernredenering en gespecialiseerde benchmarks zoals ARC-AGI-2 te verdubbelen, geeft Google aan dat de volgende fase van de AI-race zal worden gewonnen door modellen die een probleem kunnen doordenken, en niet alleen het volgende woord kunnen voorspellen.



