AI-agents zijn nu ingebed in echte bedrijfsworkflows, en ze mislukken nog steeds grofweg één op de drie pogingen op gestructureerde benchmarks. Dat kloof tussen capaciteit en betrouwbaarheid is de bepalende operationele uitdaging voor IT-leiders in 2026, volgens het negende jaarlijkse AI Index-rapport van Stanford HAI.
Deze ongelijke, onvoorspelbare prestatie is wat de AI Index de ‘grillige grens’ noemt, een term bedacht door AI-onderzoeker Ethan Mollick om de grens te beschrijven waar AI uitblinkt en dan plotseling faalt.
“AI-modellen kunnen een gouden medaille winnen op de Internationale Wiskundeolympiade,” benadrukken onderzoekers van Stanford HAI, “maar ze kunnen nog steeds niet op betrouwbare wijze de tijd aangeven.”
Hoe modellen vooruitgingen in 2025
De adoptie van AI in ondernemingen heeft 88% bereikt. Opmerkelijke prestaties in 2025 en begin 2026:
-
Frontier-modellen verbeterden in slechts één jaar tijd 30% Het laatste examen van de mensheid (HLE), dat 2.500 vragen bevat over wiskunde, natuurwetenschappen, oude talen en andere gespecialiseerde subgebieden. HLE is gebouwd om moeilijk te zijn voor AI en gunstig voor menselijke experts.
-
Toonaangevende modellen scoorden boven de 87% op MMLU-Pro, dat redeneren in meerdere stappen test op basis van 12.000 door mensen beoordeelde vragen in meer dan een dozijn disciplines. Dit illustreert “hoe competitief de frontier is geworden op het gebied van brede kennistaken”, merken de Stanford HAI-onderzoekers op.
-
Topmodellen waaronder Claude Opus 4.5, GPT-5.2 en Qwen3.5 scoorden tussen 62,9% en 70,2% op τ-bench. De benchmark test agenten op taken uit de echte wereld in realistische domeinen, waarbij ze met een gebruiker moeten chatten en externe tools of API’s moeten aanroepen.
-
De modelnauwkeurigheid op GAIA, die algemene AI-assistenten vergelijkt, steeg van ongeveer 20% naar 74,5%.
-
De prestaties van agenten op SWE-bench Verified zijn in slechts één jaar tijd gestegen van 60% naar bijna 100%. De benchmark evalueert modellen op hun vermogen om softwareproblemen in de echte wereld op te lossen.
-
De succespercentages op WebArena zijn gestegen van 15% in 2023 naar 74,3% begin 2026. Deze benchmark presenteert een realistische webomgeving voor het evalueren van autonome AI-agents, waarbij ze worden belast met het ophalen van informatie, sitenavigatie en inhoudconfiguratie.
-
De prestaties van agenten zijn gestegen van 17% in 2024 naar ongeveer 65% begin 2026 op MLE-bench, die de technische mogelijkheden van machine learning (ML) evalueert.
AI-agenten laten capaciteitswinst zien op het gebied van cyberbeveiliging. Frontier-modellen hebben bijvoorbeeld 93% van de problemen op Cybench opgelost, een benchmark die 40 taken op professioneel niveau omvat in zes capture-the-flag-categorieën, waaronder cryptografie, webbeveiliging, reverse engineering, forensisch onderzoek en exploitatie.
Dit wordt vergeleken met 15% in 2024 en vertegenwoordigt het ‘sterkste verbeteringspercentage’, wat aangeeft dat cyberbeveiligingstaken ‘goed passen bij de huidige capaciteiten van agenten’.
Het genereren van video’s is het afgelopen jaar ook aanzienlijk geëvolueerd; modellen kunnen nu vastleggen hoe objecten zich gedragen. Veo 3 van Google DeepMind werd bijvoorbeeld getest op meer dan 18.000 gegenereerde video’s, en demonstreerde het vermogen om drijfvermogen te simuleren en doolhoven op te lossen zonder dat je in die taken was getraind.
“Videogeneratiemodellen produceren niet langer alleen realistisch ogende inhoud”, schrijven de onderzoekers. “Sommigen beginnen te leren hoe de fysieke wereld eigenlijk werkt.”
Over het geheel genomen wordt AI op een aantal gebieden in het bedrijfsleven gebruikt – kennisbeheer, software-engineering en IT, marketing en verkoop – en breidt het zich uit naar gespecialiseerde domeinen zoals belastingen, hypotheekverwerking, bedrijfsfinanciering en juridisch redeneren, waar de nauwkeurigheid varieert van 60 tot 90%.
“De AI-mogelijkheden zijn nog niet aan het stagneren”, zegt Stanford HAI. “Het versnelt en bereikt meer mensen dan ooit.”
De AI-capaciteiten nemen toe, maar de betrouwbaarheid blijft achter
Multimodale modellen voldoen nu aan of overtreffen menselijke uitgangspunten op het gebied van wetenschappelijke vragen op PhD-niveau, multimodaal redeneren en competitiewiskunde. Gemini Deep Think verdiende bijvoorbeeld een gouden medaille op de Internationale Wiskunde Olympiade (IMO) van 2025, waarbij vijf van de zes problemen end-to-end in natuurlijke taal werden opgelost binnen de tijdslimiet van 4,5 uur – een opmerkelijke verbetering ten opzichte van een zilveren score in 2024.
Toch falen deze zelfde AI-systemen nog steeds in ongeveer één op de drie pogingen en hebben ze problemen met basiswaarnemingstaken, aldus Stanford HAI. Op ClockBench – een test met 180 klokontwerpen en 720 vragen – behaalde Gemini Deep Think een nauwkeurigheid van slechts 50,1%, vergeleken met ongeveer 90% voor mensen. GPT-4.5 High behaalde een vrijwel identieke score van 50,6%.
“Veel multimodale modellen worstelen nog steeds met iets dat de meeste mensen routinematig vinden: het aangeven van de tijd”, aldus het Stanford HAI-rapport. De ogenschijnlijk eenvoudige taak combineert visuele waarneming met eenvoudige rekenkunde, identificatie van wijzers en hun posities, en omzetting daarvan in een tijdswaarde. Uiteindelijk kunnen fouten bij elk van deze stappen in een stroomversnelling terechtkomen, wat volgens onderzoekers tot onjuiste resultaten kan leiden.
Bij analyse kregen de modellen een reeks klokstijlen te zien: standaard analoog, klokken zonder secondewijzer, klokken met pijlen als wijzers, andere met zwarte wijzerplaten of Romeinse cijfers. Maar zelfs na fijnafstemming op 5.000 synthetische afbeeldingen verbeterden de modellen alleen op bekende formaten en konden ze niet generaliseren naar variaties in de echte wereld (zoals vervormde wijzerplaten of dunnere wijzers).
Onderzoekers extrapoleerden dat, wanneer modellen uren- en minutenwijzers door elkaar haalden, hun vermogen om richting te interpreteren verslechterde, wat suggereert dat de uitdaging niet alleen in de gegevens ligt, maar in het integreren van meerdere visuele aanwijzingen.
“Zelfs nu modellen de kloof met menselijke experts op het gebied van kennisintensieve taken dichten, blijft dit soort visueel redeneren een aanhoudende uitdaging”, merkt Stanford HAI op.
Hallucinaties en redeneren in meerdere stappen blijven grote hiaten
Zelfs nu modellen steeds sneller redeneren, blijven hallucinaties een groot probleem.
In één benchmark varieerden de hallucinatiepercentages bij 26 toonaangevende modellen bijvoorbeeld van 22% tot 94%. De nauwkeurigheid van sommige modellen daalde scherp wanneer ze onder de loep werden genomen. De nauwkeurigheid van de GPT-4o daalde bijvoorbeeld van 98,2% naar 64,4%, en DeepSeek R1 kelderde van meer dan 90% naar 14,4%.
Aan de andere kant lieten Grok 4.20 Beta, Claude 4.5 Haiku en MiMo-V2-Pro de laagste tarieven zien.
Bovendien blijven modellen worstelen met workflows die uit meerdere stappen bestaan, zelfs als ze met meer daarvan worden belast. Op de τ-bench benchmark – die toolgebruik en multi-turn redenering evalueert – overschreed bijvoorbeeld geen enkel model de 71%, wat suggereert dat “het beheren van multiturn-gesprekken met correct gebruik van tools en het volgen van beleidsbeperkingen zelfs voor frontier-modellen moeilijk blijft”, aldus het Stanford HAI-rapport.
Modellen worden ondoorzichtig
Toonaangevende modellen zijn nu “bijna niet van elkaar te onderscheiden” als het om prestaties gaat, zo merkt het Stanford HAI-rapport op. Modellen met een open gewicht zijn competitiever dan ooit, maar ze convergeren.
Omdat capaciteiten niet langer een ‘duidelijk onderscheidende factor’ zijn, verschuift de concurrentiedruk naar kosten, betrouwbaarheid en bruikbaarheid in de echte wereld.
Frontierlabs geven minder informatie over hun modellen vrij, evaluatiemethoden verliezen snel hun relevantie en onafhankelijke tests kunnen niet altijd de door ontwikkelaars gerapporteerde statistieken bevestigen.
Zoals Stanford HAI opmerkt: “De meest capabele systemen zijn nu het minst transparant.”
Trainingscode, parametertellingen, datasetgroottes en duur worden vaak achtergehouden – door bedrijven als OpenAI, Anthropic en Google. En de transparantie neemt in bredere zin af: in 2025 werden 80 van de 95 modellen uitgebracht zonder bijbehorende trainingscode, terwijl slechts vier hun code volledig open source maakten.
Verder scoort het, na een stijging tussen 2023 en 2024, op de Foundation Model Transparantie Index – die grote funderingsontwikkelaars rangschikt op basis van 100 transparantie-indicatoren – zijn sindsdien gedaald. De gemiddelde score is nu 40, wat neerkomt op een daling van 17 punten.
“Er blijven grote gaten bestaan in de openbaarmaking van trainingsgegevens, computerbronnen en de impact na de implementatie”, aldus het rapport.
Het benchmarken van AI wordt steeds moeilijker – en minder betrouwbaar
De benchmarks die worden gebruikt om de vooruitgang op het gebied van AI te meten, worden geconfronteerd met toenemende betrouwbaarheidsproblemen, met foutenpercentages die oplopen tot 42% op veelgebruikte evaluaties. “AI wordt op ambitieuzere wijze getest op het gebied van redeneren, veiligheid en taakuitvoering in de echte wereld”, merkt het Stanford-rapport op, maar “het wordt steeds moeilijker om op deze metingen te vertrouwen.”
De belangrijkste uitdagingen zijn onder meer:
-
“Schaarse en afnemende” rapportage over vooringenomenheid van ontwikkelaars
-
Benchmarkverontreiniging, of wanneer modellen worden blootgesteld aan testgegevens; dit kan leiden tot ‘valselijk opgeblazen’ scores
-
Discrepanties tussen door de ontwikkelaar gerapporteerde resultaten en onafhankelijke tests
-
“Slecht geconstrueerde” evaluaties zonder documentatie, details over statistische significantie en reproduceerbare scripts
-
“Toenemende ondoorzichtigheid en niet-standaard aanwijzingen” die vergelijkingen van model tot model onbetrouwbaar maken
“Zelfs als benchmarkscores technisch geldig zijn, vertalen sterke benchmarkprestaties zich niet altijd in praktisch nut”, aldus het rapport. Verder “overtreft de AI-capaciteit de benchmarks die zijn ontworpen om deze te meten.”
Dit leidt tot ‘benchmarkverzadiging’, waarbij modellen zo hoge scores behalen dat tests er geen onderscheid meer tussen kunnen maken. Complexere, interactieve vormen van intelligentie worden steeds moeilijker te benchmarken. Sommigen roepen op tot evaluaties die de samenwerking tussen mens en AI meten, in plaats van de AI-prestaties afzonderlijk, maar deze techniek bevindt zich nog in een vroeg stadium van ontwikkeling.
“Evaluaties die bedoeld zijn om jarenlang een uitdaging te zijn, worden in maanden verzadigd, waardoor de periode waarin benchmarks nuttig blijven voor het volgen van de voortgang kleiner wordt”, aldus Stanford HAI.
Zijn we op ‘piekdata’?
Naarmate bouwers steeds meer data-intensieve gevolgtrekkingen gaan maken, groeit de bezorgdheid over dataknelpunten en het opschalen van duurzaamheid. Toonaangevende onderzoekers waarschuwen dat de beschikbare verzameling menselijke tekst- en webgegevens van hoge kwaliteit ‘uitgeput’ is – een toestand die ‘piekgegevens’ wordt genoemd.
Hybride benaderingen die echte en synthetische data combineren, kunnen de training “aanzienlijk versnellen” – soms met een factor 5 tot 10 – en kleinere modellen die zijn getraind op puur synthetische data zijn veelbelovend gebleken voor nauw gedefinieerde taken zoals classificatie of het genereren van codes, aldus Stanford HAI.
Synthetisch gegenereerde gegevens kunnen effectief zijn voor het verbeteren van de modelprestaties in post-trainingsomgevingen, inclusief verfijning, afstemming, afstemming van instructies en versterkend leren (RL), merkt het rapport op. Maar “deze winsten zijn niet gegeneraliseerd naar grote taalmodellen voor algemene doeleinden.”
In plaats van gegevens ‘willekeurig’ te schalen, wenden onderzoekers zich tot het snoeien, beheren en verfijnen van input, en verbeteren ze de prestaties door labels op te schonen, monsters te ontdubbelen en over het algemeen datasets van hogere kwaliteit samen te stellen.
“Discussies over de beschikbaarheid van data gaan vaak voorbij aan een belangrijke verschuiving in recent AI-onderzoek”, aldus het rapport. “Prestatiewinsten worden steeds meer gedreven door het verbeteren van de kwaliteit van bestaande datasets, niet door het verwerven van meer.”
Verantwoorde AI raakt achterop
Terwijl de infrastructuur voor verantwoorde AI groeit, is de vooruitgang ‘ongelijk’ en kan deze geen gelijke tred houden met de snelle vermogenswinst, aldus Stanford HAI.
Terwijl bijna alle vooraanstaande ontwikkelaars van AI-modellen resultaten rapporteren over capaciteitsbenchmarks, is de overeenkomstige rapportage over veiligheid en verantwoordelijkheid inconsistent en ‘slordig’.
Het aantal gedocumenteerde AI-incidenten is jaar na jaar aanzienlijk gestegen: 362 in 2025 vergeleken met 233 in 2024. En hoewel verschillende grensmodellen bij standaardgebruik de veiligheidsbeoordeling ‘Zeer Goed’ of ‘Goed’ kregen (volgens de AILuminate-benchmarkdie generatieve AI beoordeelt in 12 ‘gevaren’-categorieën), daalden de veiligheidsprestaties in alle modellen wanneer ze werden getest op jailbreak-pogingen met behulp van vijandige aanwijzingen.
“AI-modellen presteren goed tijdens veiligheidstests onder normale omstandigheden, maar hun verdediging verzwakt bij opzettelijke aanvallen”, merkt Stanford HAI op.
Als aanvulling op deze uitdaging hebben bouwers gemeld dat het verbeteren van één dimensie, zoals veiligheid, een andere dimensie, zoals nauwkeurigheid, kan verslechteren. “De infrastructuur voor verantwoorde AI groeit, maar de vooruitgang is ongelijkmatig en houdt geen gelijke tred met de snelheid van de inzet van AI”, aldus Stanford-onderzoekers.
De gegevens van Stanford maken één ding duidelijk: de kloof die er in 2026 toe doet, is niet die tussen AI en menselijke prestaties. Het zit tussen wat AI kan doen in een demo en wat het betrouwbaar doet in de productie. Op dit moment – met minder transparantie van de laboratoria en benchmarks die verzadigd raken voordat ze bruikbaar zijn – is die kloof moeilijker te meten dan ooit.



