Er is geen tekort aan generatieve AI-benchmarks die zijn ontworpen om de prestaties en nauwkeurigheid van een bepaald model te meten bij het voltooien van verschillende nuttige bedrijfstaken – van codering naar instructie volgt naar agentisch surfen op het web En gereedschap gebruik. Maar veel van deze benchmarks hebben één grote tekortkoming: ze meten het vermogen van de AI om specifieke problemen en verzoeken te voltooien, niet hoe feitelijk het model zit in zijn output – hoe goed het objectief correcte informatie genereert die is gekoppeld aan gegevens uit de echte wereld – vooral als het gaat om informatie in afbeeldingen of grafische afbeeldingen.
Voor sectoren waar nauwkeurigheid van het grootste belang is – juridisch, financieel en medisch – is er het ontbreken van een gestandaardiseerde manier om te meten feitelijkheid is een kritische blinde vlek geweest.
Dat verandert vandaag: het FACTS-team van Google en zijn data science-eenheid Kaggle heeft de FACTS Benchmark Suite uitgebracht, een uitgebreid evaluatiekader ontworpen om deze kloof te dichten.
De bijbehorende onderzoekspapier onthult een meer genuanceerde definitie van het probleem, waarbij ‘feitelijkheid’ wordt opgesplitst in twee verschillende operationele scenario’s: ‘contextuele feitelijkheid’ (antwoorden baseren op verstrekte gegevens) en ‘feitelijkheid van wereldkennis’ (informatie ophalen uit het geheugen of het web).
Terwijl het voorpaginanieuws de plaatsing van Gemini 3 Pro op het hoogste niveau is, is het diepere verhaal voor bouwers de sectorbrede ‘feitelijkheidsmuur’.
Volgens de eerste resultaten is geen enkel model – inclusief Gemini 3 Pro, GPT-5 of Claude 4.5 Opus – erin geslaagd een nauwkeurigheidsscore van 70% te behalen voor de reeks problemen. Voor technische leiders is dit een signaal: het tijdperk van ‘vertrouwen maar verifiëren’ is nog lang niet voorbij.
Het deconstrueren van de benchmark
De FACTS-suite gaat verder dan eenvoudige vraag-en-antwoordsessies. Het is samengesteld uit vier verschillende tests, die elk een andere real-world faalmodus simuleren die ontwikkelaars tegenkomen in de productie:
-
Parametrische benchmark (interne kennis): Kan het model trivia-achtige vragen nauwkeurig beantwoorden met alleen de trainingsgegevens?
-
Zoekbenchmark (toolgebruik): Kan het model effectief een webzoekhulpmiddel gebruiken om live informatie op te halen en te synthetiseren?
-
Multimodale benchmark (visie): Kan het model grafieken, diagrammen en afbeeldingen nauwkeurig interpreteren zonder te hallucineren?
-
Aardingsbenchmark v2 (context): Kan het model zich strikt houden aan de aangeleverde brontekst?
Google heeft 3.513 voorbeelden vrijgegeven aan het publiek, terwijl Kaggle een privéset heeft om te voorkomen dat ontwikkelaars trainen op de testgegevens – een veelvoorkomend probleem dat bekend staat als ‘besmetting’.
Het klassement: een centimeterspel
De eerste uitvoering van de benchmark plaatst Gemini 3 Pro aan de leiding met een uitgebreide FACTS-score van 68,8%, gevolgd door Gemini 2.5 Pro (62,1%) en OpenAI’s GPT-5 (61,8%). Een nadere blik op de gegevens onthult echter waar de echte strijdtonelen liggen voor technische teams.
|
Model |
FACTS-score (gem.) |
Zoeken (RAG-mogelijkheid) |
Multimodaal (Visie) |
|
Tweeling 3 Pro |
68,8 |
83,8 |
46.1 |
|
Tweeling 2.5 Pro |
62.1 |
63,9 |
46,9 |
|
GPT-5 |
61,8 |
77,7 |
44.1 |
|
Grok 4 |
53,6 |
75,3 |
25.7 |
|
Sluit 4.5 Werk |
51.3 |
73,2 |
39.2 |
Gegevens afkomstig uit de releaseopmerkingen van het FACTS-team.
Voor bouwers: de kloof tussen ‘zoeken’ en ‘parametrisch’
Voor ontwikkelaars die RAG-systemen (Retrieval-Augmented Generation) bouwen, is de zoekbenchmark de meest kritische maatstaf.
De gegevens laten een enorme discrepantie zien tussen het vermogen van een model om dingen te ‘weten’ (Parametrisch) en zijn vermogen om dingen te ‘vinden’ (Search). Gemini 3 Pro scoort bijvoorbeeld een hoge 83,8% op zoektaken, maar slechts 76,4% op parametrische taken.
Dit valideert de huidige standaard voor enterprise-architectuur: vertrouw niet op het interne geheugen van een model voor kritische feiten.
Als u een interne kennisbot bouwt, suggereren de FACTS-resultaten dat het koppelen van uw model aan een zoekhulpmiddel of vectordatabase niet optioneel is; het is de enige manier om de nauwkeurigheid naar aanvaardbare productieniveaus te brengen.
De multimodale waarschuwing
Het meest alarmerende datapunt voor productmanagers zijn de prestaties bij multimodale taken. De scores zijn hier universeel laag. Zelfs de leider in de categorie, Gemini 2.5 Pro, behaalde slechts een nauwkeurigheid van 46,9%.
De benchmarktaken omvatten het lezen van grafieken, het interpreteren van diagrammen en het identificeren van objecten in de natuur. Met een nauwkeurigheid van minder dan 50% over de hele linie suggereert dit dat multimodale AI nog niet klaar is voor gegevensextractie zonder toezicht.
Kort gezegd: Als uw productroadmap inhoudt dat een AI automatisch gegevens uit facturen haalt of financiële grafieken interpreteert zonder menselijke controle, u introduceert waarschijnlijk aanzienlijke foutenpercentages in uw pijplijn.
Waarom dit belangrijk is voor uw stapel
De FACTS Benchmark zal waarschijnlijk een standaard referentiepunt worden voor aanbestedingen. Bij het evalueren van modellen voor zakelijk gebruik moeten technische leiders verder kijken dan de samengestelde score en zich verdiepen in de specifieke subbenchmark die past bij hun gebruiksscenario:
-
Een klantenondersteuningsbot bouwen? Kijk naar de Grounding-score om er zeker van te zijn dat de bot zich aan uw beleidsdocumenten houdt. (Gemini 2.5 Pro scoorde hier zelfs beter dan Gemini 3 Pro, 74,2 versus 69,0).
-
Een onderzoeksassistent bouwen? Geef prioriteit aan zoekscores.
-
Een beeldanalysetool bouwen? Ga uiterst voorzichtig te werk.
Zoals het FACTS-team in hun persbericht opmerkte: “Alle geëvalueerde modellen bereikten een algehele nauwkeurigheid van minder dan 70%, waardoor er aanzienlijke ruimte overblijft voor toekomstige vooruitgang.” Voorlopig is de boodschap aan de industrie duidelijk: de modellen worden slimmer, maar ze zijn nog niet onfeilbaar. Ontwerp uw systemen in de veronderstelling dat het onbewerkte model in ongeveer een derde van de gevallen misschien wel verkeerd is.


