Home Nieuws Gemini 3 Flash komt met lagere kosten en latentie: een krachtige combinatie...

Gemini 3 Flash komt met lagere kosten en latentie: een krachtige combinatie voor ondernemingen

2
0
Gemini 3 Flash komt met lagere kosten en latentie: een krachtige combinatie voor ondernemingen

Bedrijven kunnen nu de kracht benutten van een groot taalmodel dat dicht bij dat van de modernste technologieën ligt Google’s Gemini 3 Promaar tegen een fractie van de kosten en met verhoogde snelheid, dankzij de nieuw uitgebrachte Gemini 3 Flash.

Het model voegt zich bij het vlaggenschip Gemini 3 Pro, Gemini 3 Deep Think en Gemini Agent, die allemaal vorige maand werden aangekondigd en uitgebracht.

Gemini 3 Flash, nu beschikbaar op Gemini Enterprise, Google Antigravity, Gemini CLI, AI Studio en preview in Vertex AI, verwerkt informatie vrijwel in realtime en helpt bij het bouwen van snelle, responsieve agentische applicaties.

Het bedrijf zei in een blogpost dat Gemini 3 Flash “bouwt op de modelreeks waar ontwikkelaars en ondernemingen al van houden, geoptimaliseerd voor hoogfrequente workflows die snelheid vereisen, zonder in te boeten aan kwaliteit.

Het model is ook de standaard voor de AI-modus op Google Zoeken en de Gemini-applicatie.

Tulsee Doshi, senior directeur productmanagement van het Gemini-team, zei in een aparte blogpost dat het model “aantoont dat snelheid en schaal niet ten koste hoeven te gaan van intelligentie.”

“Gemini 3 Flash is gemaakt voor iteratieve ontwikkeling en biedt de professionele codeerprestaties van Gemini 3 met lage latentie. Het is in staat om taken snel te redeneren en op te lossen in hoogfrequente workflows”, aldus Doshi. “Het biedt een ideale balans voor agentische codering, productieklare systemen en responsieve interactieve toepassingen.”

Vroege adoptie door gespecialiseerde bedrijven bewijst de betrouwbaarheid van het model op terreinen waar veel op het spel staat. Harvey, een AI-platform voor advocatenkantoren, rapporteerde een stijging van 7% in de redenering op hun interne ‘BigLaw Bench’, terwijl Resemble AI ontdekte dat Gemini 3 Flash complexe forensische gegevens voor deepfake-detectie 4x sneller kon verwerken dan Gemini 2.5 Pro. Dit zijn niet alleen snelheidswinsten; ze maken ‘near real-time’ workflows mogelijk die voorheen onmogelijk waren.

Efficiënter tegen lagere kosten

Enterprise AI-bouwers zijn zich hiervan bewuster geworden de kosten van het uitvoeren van AI-modellenvooral omdat ze belanghebbenden proberen te overtuigen meer budget te steken in agentische workflows die op dure modellen draaien. Organisaties hebben zich tot kleinere of gedistilleerde modellen, focus op open modellen of anders onderzoeks- en aanwijzingstechnieken om de opgeblazen AI-kosten te helpen beheersen.

Voor ondernemingen is de grootste waardepropositie van Gemini 3 Flash dat het hetzelfde niveau aan geavanceerde multimodale mogelijkheden biedt, zoals complexe videoanalyse en data-extractie, als zijn grotere Gemini-tegenhangers, maar veel sneller en goedkoper is.

Hoewel uit de interne materialen van Google blijkt dat de snelheid drie keer zo hoog is ten opzichte van de 2.5 Pro-serie, zijn gegevens van onafhankelijke bronnen benchmarkingbedrijf Artificial Analysis voegt een laag van cruciale nuance toe.

In de pre-releasetests van laatstgenoemde organisatie registreerde Gemini 3 Flash Preview een ruwe doorvoer van 218 uitvoertokens per seconde. Dit maakt het 22% langzamer dan de vorige ‘niet-redenerende’ Gemini 2.5 Flash, maar het is nog steeds aanzienlijk sneller dan rivalen, waaronder OpenAI’s GPT-5.1 high (125 t/s) en DeepSeek V3.2-redenering (30 t/s).

Het meest opvallend is dat Artificial Analysis Gemini 3 Flash heeft gekroond tot de nieuwe leider in hun AA-Omniscience kennisbenchmark, waar het de hoogste kennisnauwkeurigheid behaalde van alle tot nu toe geteste modellen. Deze intelligentie gaat echter gepaard met een ‘redeneringsbelasting’: het model verdubbelt het tokengebruik ruimschoots in vergelijking met de 2.5 Flash-serie bij het aanpakken van complexe indexen.

Deze hoge tokendichtheid wordt gecompenseerd door de agressieve prijzen van Google: bij toegang via de Gemini API kost Gemini 3 Flash $ 0,50 per 1 miljoen invoertokens, vergeleken met $ 1,25/1 miljoen invoertokens voor Gemini 2.5 Pro, en $ 3/1 miljoen uitvoertokens, vergeleken met $ 10/1 miljoen uitvoertokens voor Gemini 2.5 Pro. Hierdoor kan Gemini 3 Flash de titel claimen van het meest kostenefficiënte model voor zijn intelligentieniveau, ondanks dat het een van de meest spraakzame modellen is in termen van onbewerkt tokenvolume. Hier ziet u hoe het zich verhoudt tot concurrerende LLM-aanbiedingen:

Model

Invoer (/1M)

Uitgang (/1M)

Totale kosten

Bron

Qwen3 Turbo

$ 0,05

$ 0,20

$ 0,25

Alibaba-wolk

Grok 4.1 Snel (redenering)

$ 0,20

$ 0,50

$ 0,70

xAI

Grok 4.1 Snel (niet redenerend)

$ 0,20

$ 0,50

$ 0,70

xAI

deepseek-chat (V3.2-Exp)

$ 0,28

$ 0,42

$ 0,70

Diepzoeken

deepseek-reasoner (V3.2-Exp)

$ 0,28

$ 0,42

$ 0,70

Diepzoeken

Qwen3 Plus

$ 0,40

$ 1,20

$ 1,60

Alibaba-wolk

ERNIE 5.0

$ 0,85

$ 3,40

$ 4,25

Qianfan

Gemini 3 Flash-voorbeeld

$ 0,50

$ 3,00

$ 3,50

Googlen

Claude Haiku 4.5

$ 1,00

$ 5,00

$ 6,00

Antropisch

Qwen-Max

$ 1,60

$ 6,40

$ 8,00

Alibaba-wolk

Gemini 3 Pro (≤200K)

$ 2,00

$ 12,00

$ 14,00

Googlen

GPT-5.2

$ 1,75

$ 14,00

$ 15,75

Open AI

Claude Sonnet 4.5

$ 3,00

$ 15,00

$ 18,00

Antropisch

Gemini 3 Pro (>200K)

$ 4,00

$ 18,00

$ 22,00

Googlen

Sluit werk 4.5

$ 5,00

$ 25,00

$ 30,00

Antropisch

GPT-5.2 Pro

$ 21,00

$ 168,00

$ 189,00

Open AI

Meer manieren om te besparen

Maar zakelijke ontwikkelaars en gebruikers kunnen de kosten verder verlagen door de vertraging te elimineren die de meeste grotere modellen vaak hebben, waardoor het tokengebruik toeneemt. Google zei dat het model “in staat is om te moduleren hoeveel het denkt”, zodat het meer denkwerk en dus meer tokens gebruikt voor complexere taken dan voor snelle aanwijzingen. Het bedrijf merkte op dat Gemini 3 Flash 30% minder tokens gebruikt dan Gemini 2.5 Pro.

Om deze nieuwe redeneerkracht in evenwicht te brengen met strikte latentievereisten van bedrijven, heeft Google een ‘Thinking Level’-parameter geïntroduceerd. Ontwikkelaars kunnen schakelen tussen ‘Laag’ (om de kosten en latentie voor eenvoudige chattaken te minimaliseren) en ‘Hoog’ (om de redeneerdiepte voor complexe gegevensextractie te maximaliseren). Dankzij deze gedetailleerde controle kunnen teams ‘variabele snelheid’-applicaties bouwen die alleen dure ‘denktokens’ verbruiken wanneer een probleem daadwerkelijk PhD-niveau vereist.

Het economische verhaal gaat verder dan alleen maar symbolische prijzen. Met de standaard toevoeging van Context Caching kunnen bedrijven die enorme, statische datasets verwerken, zoals hele juridische bibliotheken of codebase-repository’s, een kostenbesparing van 90% zien voor herhaalde zoekopdrachten. In combinatie met de 50% korting van de Batch API dalen de totale eigendomskosten voor een door Gemini aangedreven agent aanzienlijk onder de drempel van concurrerende grensmodellen

“Gemini 3 Flash levert uitzonderlijke prestaties op het gebied van coderen en agentische taken, gecombineerd met een lagere prijs, waardoor teams geavanceerde redeneerkosten kunnen inzetten in processen met een hoog volume zonder op barrières te stuiten”, aldus Google.

Door een model aan te bieden dat sterke multimodale prestaties levert tegen een meer betaalbare prijs, pleit Google ervoor dat bedrijven die zich bezighouden met het beheersen van hun AI-uitgaven voor deze modellen moeten kiezen, vooral Gemini 3 Flash.

Sterke benchmarkprestaties

Maar hoe presteert Gemini 3 Flash qua prestaties ten opzichte van andere modellen?

Doshi zei dat het model een score van 78% behaalde op de SWE-Bench Verified benchmark-tests voor codeeragenten, en beter presteerde dan zowel de voorgaande Gemini 2.5-familie als de nieuwere Gemini 3 Pro zelf!

Voor bedrijven betekent dit dat grootschalig softwareonderhoud en het oplossen van bugs nu kunnen worden overgebracht naar een model dat zowel sneller als goedkoper is dan eerdere vlaggenschipmodellen, zonder dat de codekwaliteit achteruitgaat.

Het model presteerde ook sterk op andere benchmarks en scoorde 81,2% op de MMMU Pro-benchmark, vergelijkbaar met Gemini 3 Pro.

Hoewel de meeste modellen van het Flash-type expliciet zijn geoptimaliseerd voor korte, snelle taken zoals het genereren van code, claimt Google dat de prestaties van Gemini 3 Flash “op het gebied van redeneren, gereedschapsgebruik en multimodale mogelijkheden ideaal zijn voor ontwikkelaars die complexere videoanalyses, data-extractie en visuele vragen en antwoorden willen doen, wat betekent dat het intelligentere toepassingen mogelijk kan maken – zoals in-game assistenten of A/B-testexperimenten – die zowel snelle antwoorden als diepgaande redeneringen vereisen.”

Eerste indrukken van vroege gebruikers

Tot dusver zijn vroege gebruikers grotendeels onder de indruk van het model, vooral van de benchmarkprestaties.

Wat het betekent voor het AI-gebruik in ondernemingen

Nu Gemini 3 Flash nu fungeert als de standaardengine voor Google Zoeken en de Gemini-app, zijn we getuige van de ‘Flash-ificatie’ van grensverleggende intelligentie. Door redeneren op Pro-niveau tot de nieuwe basislijn te maken, zet Google een val voor langzamere gevestigde exploitanten.

De integratie in platforms als Google Antigravity suggereert dat Google niet alleen maar een model verkoopt; het verkoopt de infrastructuur voor de autonome onderneming.

Nu ontwikkelaars aan de slag gaan met 3x hogere snelheden en 90% korting op contextcaching, wordt de ‘Gemini-first’-strategie een overtuigend financieel argument. In de snelle race om AI-dominantie zou Gemini 3 Flash het model kunnen zijn dat ‘vibe coding’ eindelijk van een experimentele hobby verandert in een productieklare realiteit.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in