Home Nieuws Artificial Analysis herziet de AI Intelligence Index en vervangt populaire benchmarks door...

Artificial Analysis herziet de AI Intelligence Index en vervangt populaire benchmarks door tests uit de echte wereld

8
0
Artificial Analysis herziet de AI Intelligence Index en vervangt populaire benchmarks door tests uit de echte wereld

De wapenwedloop om slimmere AI-modellen te bouwen heeft een meetprobleem: de tests die worden gebruikt om ze te rangschikken, raken bijna net zo snel achterhaald als de modellen verbeteren. Op maandag, Kunstmatige analyseeen onafhankelijke AI-benchmarkorganisatie waarvan de ranglijst nauwlettend in de gaten wordt gehouden door ontwikkelaars en zakelijke kopers, heeft een grote herziening van haar versie uitgebracht Intelligentie-index dat verandert fundamenteel de manier waarop de industrie de voortgang van AI meet.

De nieuwe Intelligentie-index v4.0 omvat 10 evaluaties over agenten, codering, wetenschappelijk redeneren en algemene kennis. Maar de veranderingen gaan veel dieper dan het door elkaar halen van testnamen. De organisatie heeft drie belangrijke benchmarks verwijderd: MMLU-Pro, AIME 2025En LiveCodeBench – die al lang door AI-bedrijven worden aangehaald in hun marketingmateriaal. In plaats daarvan introduceert de nieuwe index evaluaties die zijn ontworpen om te meten of AI-systemen het soort werk kunnen voltooien waarvoor mensen daadwerkelijk betaald krijgen.

“Deze indexverschuiving weerspiegelt een bredere transitie: intelligentie wordt minder gemeten aan de hand van herinneringen en meer aan de hand van economisch nuttige actie”, aldus de onderzoekers Aravind Sundareen onderzoeker die reageerde op de aankondiging op X (voorheen Twitter).

Waarom AI-benchmarks breken: het probleem met tests die topmodellen al onder de knie hebben

De herziening van de benchmark pakt een groeiende crisis in de AI-evaluatie aan: de leidende modellen zijn zo capabel geworden dat traditionele tests niet langer een betekenisvol onderscheid tussen hen kunnen maken. De nieuwe index maakt het beklimmen van de curve opzettelijk moeilijker. Volgens Kunstmatige analysescoren topmodellen nu 50 of lager op de nieuwe v4.0-schaal, vergeleken met 73 op de vorige versie – een herkalibratie die is ontworpen om ruimte te creëren voor toekomstige verbeteringen.

Dit verzadigingsprobleem heeft de sector al maanden geplaagd. Wanneer elk grensmodel op een bepaalde test in het 90e percentiel scoort, verliest de test zijn bruikbaarheid als besluitvormingsinstrument voor bedrijven die proberen te kiezen welk AI-systeem ze willen inzetten. De nieuwe methodologie probeert dit op te lossen door vier categorieën gelijk te wegen – agenten, coderen, wetenschappelijk redeneren en algemeen – en tegelijkertijd evaluaties te introduceren waar zelfs de meest geavanceerde systemen het nog steeds moeilijk mee hebben.

De resultaten onder het nieuwe raamwerk tonen OpenAI’s GPT-5.2 met uitgebreide redeneringsinspanningen die de eerste plaats claimden, op de voet gevolgd door die van Anthropic Sluit werk 4.5 en die van Google Tweeling 3 Pro. OpenAI beschrijft GPT-5.2 als “de meest capabele modelserie tot nu toe voor professioneel kenniswerk”, terwijl Claude Opus 4.5 van Anthropic hoger scoort dan GPT-5.2 op SWE-Bench geverifieerdeen testset die de vaardigheden van softwarecodering evalueert.

GDPval-AA: De nieuwe benchmark die test of AI jouw werk kan doen

De belangrijkste toevoeging aan de nieuwe index is GDPval-AAeen evaluatie gebaseerd op die van OpenAI GDPval-gegevensset dat AI-modellen test op economisch waardevolle taken in de echte wereld in 44 beroepen en 9 grote industrieën. In tegenstelling tot traditionele benchmarks die modellen vragen om abstracte wiskundige problemen op te lossen of meerkeuzevragen te beantwoorden, meet GDPval-AA of AI de resultaten kan produceren die professionals daadwerkelijk creëren: documenten, dia’s, diagrammen, spreadsheets en multimedia-inhoud.

Modellen krijgen shell-toegang en mogelijkheden om op het web te surfen via wat Artificial Analysis ‘Stirrup’ noemt, het referentiemiddelharnas. Scores zijn afgeleid van blinde paarsgewijze vergelijkingen, waarbij de ELO-ratings op het moment van evaluatie bevroren zijn om indexstabiliteit te garanderen.

Onder dit raamwerk leidt OpenAI’s GPT-5.2 met uitgebreide redenering met een ELO-score van 1442, terwijl Anthropic’s Claude Opus 4.5 niet-denkende variant volgt op 1403. Claude Sonnet 4.5 volgt op 1259.

Volgens de oorspronkelijke GDPval-evaluatie versloeg of bond GPT-5.2 topprofessionals uit de industrie op 70,9% van de goed gespecificeerde taken, volgens OpenAI. Het bedrijf beweringen GPT-5.2 “presteert beter dan professionals uit de industrie bij goed gespecificeerde kenniswerktaken in 44 beroepen”, waarbij bedrijven als Notion, Box, Shopify, Harvey en Zoom “state-of-the-art lange-horizon-redeneringen en tool-calling-prestaties” observeren.

De nadruk op economisch meetbare output is een filosofische verschuiving in de manier waarop de industrie denkt over AI-capaciteiten. In plaats van te vragen of een model kan slagen voor een balie-examen of wiskundeproblemen kan oplossen – prestaties die de krantenkoppen halen maar zich niet noodzakelijkerwijs vertalen in productiviteit op de werkplek – vragen de nieuwe benchmarks zich af of AI daadwerkelijk werk kan doen.

Natuurkundige problemen op universitair niveau leggen de grenzen bloot van de meest geavanceerde AI-modellen van vandaag

Terwijl GDPval-AA meet de praktische productiviteit, zo heet een andere nieuwe evaluatie CritPT laat zien hoe ver AI-systemen verwijderd zijn van echte wetenschappelijke redenering. De benchmark test taalmodellen op niet-gepubliceerde redeneertaken op onderzoeksniveau in de moderne natuurkunde, inclusief gecondenseerde materie, kwantumfysica en astrofysica.

CritPT is ontwikkeld door meer dan 50 actieve natuurkundig onderzoekers van meer dan 30 toonaangevende instellingen. De 71 samengestelde onderzoeksuitdagingen simuleren grootschalige onderzoeksprojecten op instapniveau – vergelijkbaar met de opwarmingsoefeningen die een praktijkgerichte hoofdonderzoeker zou kunnen toewijzen aan junior studenten. Elk probleem wordt met de hand samengesteld om een ​​gisbestendig, machinaal verifieerbaar antwoord te produceren.

De resultaten zijn ontnuchterend. De huidige state-of-the-art modellen zijn nog lang niet in staat om op betrouwbare wijze uitdagingen op onderzoeksschaal op te lossen. GPT-5.2 met uitgebreide redenering leidt de CritPT-klassement met een score van slechts 11,5%, gevolgd door Google’s Gemini 3 Pro Preview en Anthropic’s Claude 4.5 Opus Thinking-variant. Deze scores suggereren dat AI-systemen, ondanks opmerkelijke vooruitgang op het gebied van consumentengerichte taken, nog steeds worstelen met het soort diepgaande redenering dat nodig is voor wetenschappelijke ontdekkingen.

AI-hallucinatiepercentages: waarom de meest nauwkeurige modellen niet altijd de meest betrouwbare zijn

Misschien wel de meest onthullende nieuwe evaluatie AA-Alwetendheiddat de feitelijke herinnering en hallucinaties meet op basis van 6.000 vragen over 42 economisch relevante onderwerpen binnen zes domeinen: bedrijfskunde, gezondheid, recht, software-engineering, geesteswetenschappen en sociale wetenschappen, en natuurwetenschappen/techniek/wiskunde.

De evaluatie levert een Alwetendheidsindex dat nauwkeurige kennis beloont en gehallucineerde reacties bestraft – wat inzicht geeft in de vraag of een model onderscheid kan maken tussen wat het weet en wat het niet weet. De bevindingen leggen een ongemakkelijke waarheid bloot: hoge nauwkeurigheid garandeert geen lage hallucinatie. Modellen met de hoogste nauwkeurigheid slagen er vaak niet in om voorop te lopen op de Omniscience Index, omdat ze de neiging hebben om te raden in plaats van zich te onthouden als ze onzeker zijn.

Die van Google Gemini 3 Pro-voorbeeld leidt de Omniscience Index met een score van 13, gevolgd door Claude Opus 4.5 Thinking en Gemini 3 Flash Reasoning, beide met 10. De verdeling tussen nauwkeurigheid en hallucinatiepercentages onthult echter een complexer beeld.

Wat de ruwe nauwkeurigheid betreft, lopen de twee modellen van Google voorop met scores van respectievelijk 54% en 51%, gevolgd door Claude 4.5 Opusdenken op 43%. Maar de modellen van Google laten ook hogere hallucinatiepercentages zien dan vergelijkbare modellen, met scores van 88% en 85%. Anthropic’s Claude 4.5 Sonnet Thinking en Claude Opus 4.5 Thinking laten hallucinatiepercentages zien van respectievelijk 48% en 58%, terwijl GPT-5.1 met hoge redeneerinspanning 51% bereikt – het op een na laagste geteste hallucinatiepercentage.

Zowel de alwetendheidsnauwkeurigheid als het hallucinatiepercentage dragen elk voor 6,25% bij aan de algemene intelligentie-index v4.

Binnen de AI-wapenwedloop: hoe OpenAI, Google en Anthropic zich opstapelen onder nieuwe tests

De herschikking van de benchmarks komt op een bijzonder turbulent moment in de AI-industrie. Alle drie de toonaangevende ontwikkelaars van grensmodellen hebben binnen slechts een paar weken grote nieuwe modellen gelanceerd Tweeling 3 staat nog steeds op de eerste plaats op veel van de ranglijsten LMAeen veel geciteerde benchmarkingtool die wordt gebruikt om LLM’s te vergelijken.

Google’s release van Gemini 3 in november werd gevraagd OpenAI kondigt een “code rood”-inspanning aan om ChatGPT te verbeteren. OpenAI rekent op zijn GPT-modellenfamilie om zijn beweringen te rechtvaardigen Waardering van $500 miljard en voorbij $ 1,4 biljoen aan geplande uitgaven. “We hebben deze code rood aangekondigd om het bedrijf duidelijk te maken dat we middelen op een bepaald gebied willen inzetten”, zegt Fidji Simo, CEO van Applications bij OpenAI. Altman vertelde CNBC hij verwachtte dat OpenAI in januari de code rood zou verlaten.

Anthropic reageerde op 24 november met Claude Opus 4.5 en behaalde een SWE-Bench geverifieerd nauwkeurigheidsscore van 80,9% – waarbij de codeerkroon van beide wordt teruggevorderd GPT-5.1-Codex-Max En Tweeling 3. De lancering markeerde de derde grote modelrelease van Anthropic in twee maanden. Microsoft en Nvidia hebben sindsdien investeringen van meerdere miljarden dollars in Anthropic aangekondigd, waardoor de waardering ervan is gestegen tot ongeveer $350 miljard.

Hoe kunstmatige analyse AI-modellen test: een blik op het onafhankelijke benchmarkingproces

Kunstmatige analyse benadrukt dat alle evaluaties onafhankelijk worden uitgevoerd met behulp van een gestandaardiseerde methodologie. De organisatie stelt dat haar “methodologie de nadruk legt op eerlijkheid en toepasbaarheid in de echte wereld”, waarbij een betrouwbaarheidsinterval van 95% voor de Intelligence Index wordt geschat op minder dan ± 1% op basis van experimenten met meer dan 10 herhalingen van bepaalde modellen.

De organisatie is gepubliceerd methodologie definieert de belangrijkste termen die zakelijke kopers moeten begrijpen. Volgens de methodologiedocumentatie beschouwt Artificial Analysis een ‘eindpunt’ als een gehost exemplaar van een model dat toegankelijk is via een API – wat betekent dat een enkel model meerdere eindpunten van verschillende providers kan hebben. Een ‘provider’ is een bedrijf dat een of meer modeleindpunten of -systemen host en er toegang toe biedt. Cruciaal is dat Artificial Analysis onderscheid maakt tussen modellen met ‘open gewichten’, waarvan de gewichten publiekelijk zijn vrijgegeven, en echte open-sourcemodellen, waarbij wordt opgemerkt dat veel open LLM’s zijn uitgebracht met licenties die niet voldoen aan de volledige definitie van open-sourcesoftware.

De methodologie maakt ook duidelijk hoe de organisatie de tokenmeting standaardiseert: het gebruikt OpenAI-tokens zoals gemeten met OpenAI’s tiktoken-pakket als een standaardeenheid bij alle providers om eerlijke vergelijkingen mogelijk te maken.

Wat de nieuwe AI Intelligence Index betekent voor zakelijke technologiebeslissingen in 2026

Voor technische besluitvormers die AI-systemen evalueren, is de Intelligentie-index v4.0 biedt een genuanceerder beeld van de mogelijkheden dan eerdere benchmarkcompilaties. De gelijke weging van agenten, codering, wetenschappelijk redeneren en algemene kennis betekent dat bedrijven met specifieke gebruiksscenario’s categoriespecifieke scores willen onderzoeken in plaats van uitsluitend op de geaggregeerde index te vertrouwen.

De introductie van het meten van hallucinaties als een afzonderlijke, gewogen factor pakt een van de meest hardnekkige problemen bij de adoptie van AI in ondernemingen aan. Een model dat zeer nauwkeurig lijkt, maar vaak hallucineert wanneer onzekerheid aanzienlijke risico’s met zich meebrengt in gereguleerde sectoren zoals de gezondheidszorg, de financiële sector en de wetgeving.

De Artificial Analysis Intelligence Index wordt beschreven als “een Engelstalige evaluatiesuite met alleen tekst”. De organisatie vergelijkt modellen voor beeldinvoer, spraakinvoer en meertalige prestaties afzonderlijk.

De reacties op de aankondiging zijn overwegend positief. “Het is geweldig om te zien dat de index evolueert om de verzadiging te verminderen en zich meer te concentreren op agentische prestaties”, schreef een commentator in een X.com-bericht. “Het opnemen van taken uit de echte wereld zoals GDPval-AA maakt de scores veel relevanter voor praktisch gebruik.”

Anderen hadden een ambitieuzere toon. ‘De nieuwe golf modellen die op het punt staat te komen, zal ze allemaal achter zich laten’, voorspelde een waarnemer. “Tegen het einde van het jaar zal de singulariteit onmiskenbaar zijn.”

Maar of die voorspelling nu profetisch of voorbarig blijkt te zijn, één ding is al duidelijk: het tijdperk van het beoordelen van AI op basis van hoe goed het testvragen beantwoordt, loopt ten einde. De nieuwe standaard is eenvoudiger en heeft veel meer consequenties: kan deze het werk doen?

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in