Home Nieuws Onderzoekers van Google vinden dat het beste AI-model 69% gelijk heeft

Onderzoekers van Google vinden dat het beste AI-model 69% gelijk heeft

6
0
Onderzoekers van Google vinden dat het beste AI-model 69% gelijk heeft

2025-12-12T21:26:30.691Z

We hebben zojuist een ontnuchterend beeld gekregen van hoe vaak AI-modellen hun feiten op een rij krijgen. Deze week Google Diepe geest introduceerde de FACTS Benchmarksuitedat meet hoe betrouwbaar AI-modellen feitelijk nauwkeurige antwoorden opleveren.

Het test modellen op vier gebieden: het beantwoorden van factoïde vragen op basis van interne kennis, het effectief gebruiken van internetzoekopdrachten, het onderbouwen van antwoorden in lange documenten en het interpreteren van afbeeldingen. Het beste model, Googlen‘S Tweeling 3 Pro bereikte een nauwkeurigheid van 69%, terwijl andere toonaangevende modellen daar ruim onder bleven.

Voor de context: als een van de verslaggevers die ik beheer verhalen zou indienen die 69% accuraat waren, zou ik ze ontslaan.

Naast de journalistiek zou dit aantal ook van belang moeten zijn bedrijven die inzetten op AI. Hoewel modellen uitblinken in snelheid en vloeiendheid, blijft hun feitelijke betrouwbaarheid nog steeds ver achter bij de menselijke verwachtingen, vooral bij taken waarbij nichekennis, complexe redenering of nauwkeurige onderbouwing van bronmateriaal betrokken zijn.

Zelfs kleine feitelijke fouten kunnen buitensporige gevolgen hebben in sectoren als de financiële sector, de gezondheidszorg en de wet. Deze week mijn getalenteerde collega Melia Russel gekeken hoe advocatenkantoren hiermee omgaan opkomst van AI-modellen als bron van juridische waarheid. Het is rommelig: ze vertelt hoe een bedrijf een werknemer ontsloeg omdat ze een document hadden ingediend vol nepzaken nadat ze gebruik hadden gemaakt van ChatGPT om het op te stellen.

De FACTS-benchmark is een waarschuwing maar ook een routekaart: door te kwantificeren waar en hoe modellen falen, hoopt Google de vooruitgang te versnellen. Maar voor nu is de conclusie duidelijk: AI wordt steeds beter, maar het is nog steeds ongeveer een derde van de tijd fout.

Meld u aan voor de Tech Memo-nieuwsbrief van BI hier. Neem contact met mij op via e-mail op abarr@businessinsider.com.



Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in