Nog maar een paar weken geleden debuteerde Google met zijn Tweeling 3 model en beweert dat het een leidende positie scoort in meerdere AI-benchmarks. Maar de uitdaging met door leveranciers geleverde benchmarks is dat ze precies dat zijn: door de leverancier geleverd.
Een nieuwe leveranciersneutrale evaluatie van Vruchtbaarplaatst Gemini 3 echter bovenaan het klassement. Dit is niet gebaseerd op een reeks academische benchmarks; het gaat eerder om een reeks kenmerken uit de echte wereld waar echte gebruikers en organisaties om geven.
Prolific is opgericht door onderzoekers van de Universiteit van Oxford. Het bedrijf levert hoogwaardige, betrouwbare menselijke gegevens om rigoureus onderzoek en ethische AI-ontwikkeling mogelijk te maken. Het bedrijf “MENSELIJKE maatstafpast deze aanpak toe door representatieve menselijke steekproeven en blinde tests te gebruiken om AI-modellen rigoureus te vergelijken in een verscheidenheid aan gebruikersscenario’s, waarbij niet alleen de technische prestaties worden gemeten, maar ook het vertrouwen van de gebruiker, het aanpassingsvermogen en de communicatiestijl.
De nieuwste HUMAINE-test evalueerde 26.000 gebruikers in een blinde test van modellen. In de evaluatie steeg de vertrouwensscore van Gemini 3 Pro van 16% naar 69%, de hoogste ooit gemeten door Prolific. Gemini 3 staat nu 69% van de tijd op de eerste plaats wat betreft vertrouwen, ethiek en veiligheid in demografische subgroepen, vergeleken met zijn voorganger Gemini 2.5 Pro, die slechts 16% van de tijd de eerste plaats bekleedde.
Over het geheel genomen stond Gemini 3 op de eerste plaats in drie van de vier evaluatiecategorieën: prestatie en redenering, interactie en aanpassingsvermogen en vertrouwen en veiligheid. Het verloor alleen wat betreft communicatiestijl, waarbij DeepSeek V3 met 43% de voorkeuren overtrof. De HUMAINE-test toonde ook aan dat Gemini 3 consistent goed presteerde in 22 verschillende demografische gebruikersgroepen, inclusief variaties in leeftijd, geslacht, etniciteit en politieke oriëntatie. Uit de evaluatie bleek ook dat de kans dat gebruikers nu vijf keer vaker voor het model kiezen bij onderlinge blinde vergelijkingen.
Maar de ranking doet er minder toe Waarom het heeft gewonnen.
“Het is de consistentie in een zeer breed scala aan verschillende gebruiksscenario’s, en een persoonlijkheid en een stijl die aantrekkelijk is voor een breed scala aan verschillende gebruikerstypen”, vertelde Phelim Bradley, mede-oprichter en CEO van Prolific, aan VentureBeat. “Hoewel in sommige specifieke gevallen andere modellen de voorkeur hebben van kleine subgroepen of van een bepaald gesprekstype, zijn het de breedte van de kennis en de flexibiliteit van het model over een reeks verschillende gebruiksscenario’s en doelgroeptypen die het mogelijk hebben gemaakt om deze specifieke benchmark te winnen.”
Hoe geblindeerd testen onthult wat academische benchmarks missen
De methodologie van HUMAINE legt hiaten bloot in de manier waarop de industrie modellen evalueert. Gebruikers communiceren gelijktijdig met twee modellen in multi-turn gesprekken. Ze weten niet welke leveranciers elk antwoord mogelijk maken. Ze bespreken alle onderwerpen die voor hen belangrijk zijn, niet vooraf bepaalde testvragen.
Het is het monster zelf dat ertoe doet. HUMAINE maakt gebruik van representatieve steekproeven onder Amerikaanse en Britse populaties, waarbij wordt gecontroleerd op leeftijd, geslacht, etniciteit en politieke oriëntatie. Dit onthult iets dat statische benchmarks niet kunnen vastleggen: de prestaties van modellen variëren per doelgroep.
“Als je een AI-leaderboard neemt, zou de meerderheid van hen nog steeds een vrij statische lijst kunnen hebben”, zei Bradley. “Maar voor ons, als je kijkt naar het publiek, krijgen we een iets ander klassement, of je nu kijkt naar een linkse, rechtse, Amerikaanse of Britse steekproef. En ik denk dat leeftijd eigenlijk de meest verschillende voorwaarde was in ons experiment.”
Voor bedrijven die AI inzetten bij diverse werknemerspopulaties is dit van belang. Een model dat goed presteert voor de ene doelgroep, kan ondermaats presteren voor een andere.
De methodologie gaat ook in op een fundamentele vraag bij AI-evaluatie: waarom überhaupt menselijke rechters gebruiken als AI zichzelf zou kunnen evalueren? Bradley merkte op dat zijn bedrijf in bepaalde gebruikssituaties AI-rechters gebruikt, hoewel hij benadrukte dat menselijke evaluatie nog steeds de kritische factor is.
“We zien het grootste voordeel uit de slimme orkestratie van zowel LLM-rechters als menselijke gegevens, beide hebben sterke en zwakke punten, die, wanneer ze slim worden gecombineerd, samen beter presteren”, aldus Bradley. “Maar we denken nog steeds dat menselijke data de alfa is. We zijn nog steeds extreem optimistisch dat menselijke data en menselijke intelligentie op de hoogte moeten zijn.”
Wat vertrouwen betekent bij AI-evaluatie
Vertrouwen, ethiek en veiligheid meten het vertrouwen van de gebruiker in betrouwbaarheid, feitelijke juistheid en verantwoordelijk gedrag. In de methodologie van HUMAINE is vertrouwen geen claim van een leverancier of een technische maatstaf; het is wat gebruikers rapporteren na blinde gesprekken met concurrerende modellen.
Het cijfer van 69% vertegenwoordigt de waarschijnlijkheid voor demografische groepen. Deze consistentie is belangrijker dan de totale scores, omdat organisaties diverse bevolkingsgroepen kunnen bedienen.
“Er was geen besef dat ze Gemini in dit scenario gebruikten”, zei Bradley. “Het was alleen gebaseerd op de verblinde multi-turn respons.”
Dit scheidt het waargenomen vertrouwen van het verdiende vertrouwen. Gebruikers beoordeelden de modelresultaten zonder te weten welke leverancier deze produceerde, waardoor het merkvoordeel van Google werd geëlimineerd. Voor klantgerichte implementaties waarbij de AI-leverancier onzichtbaar blijft voor eindgebruikers, is dit onderscheid van belang.
Wat bedrijven nu moeten doen
Een van de cruciale dingen die bedrijven nu moeten doen bij het overwegen van verschillende modellen, is het omarmen van een evaluatiekader dat werkt.
“Het wordt steeds uitdagender om modellen uitsluitend op basis van vibraties te evalueren”, zegt Bradley. “Ik denk dat we steeds meer rigoureuze, wetenschappelijke benaderingen nodig hebben om echt te begrijpen hoe deze modellen presteren.”
De HUMAINE-gegevens bieden een raamwerk: testen op consistentie tussen gebruiksscenario’s en gebruikersdemografieën, en niet alleen op topprestaties bij specifieke taken. Blinde tests om modelkwaliteit te scheiden van merkperceptie. Gebruik representatieve voorbeelden die overeenkomen met uw werkelijke gebruikerspopulatie. Plan voor continue evaluatie als modellen veranderen.
Voor bedrijven die AI op schaal willen inzetten, betekent dit dat ze verder moeten gaan dan ‘welk model het beste is’ naar ‘welk model het beste is voor onze specifieke gebruikssituatie, gebruikersdemografie en vereiste kenmerken’.
De nauwkeurigheid van representatieve steekproeven en blinde tests levert de gegevens op om die vaststelling te maken – iets wat technische benchmarks en op vibraties gebaseerde evaluatie niet kunnen opleveren.


