Home Nieuws De belangrijkste benchmark van AI in 2026? Vertrouwen

De belangrijkste benchmark van AI in 2026? Vertrouwen

4
0
De belangrijkste benchmark van AI in 2026? Vertrouwen

In 2026 (en daarna) zal de beste benchmark voor grote taalmodellen niet MMLU, AgentBench of GAIA zijn. Het zal zo zijn vertrouwen-iets AI zal opnieuw moeten worden opgebouwd voordat het in grote lijnen nuttig en waardevol kan zijn voor zowel consumenten als bedrijven.

Onderzoekers identificeren er verschillende soorten AI-vertrouwen. Bij mensen die chatbots als metgezellen of vertrouwenspersonen gebruiken, meten ze het gevoel dat de AI welwillend of integer is. Bij mensen die AI gebruiken voor productiviteit of het bedrijfsleven, ze meten iets dat ‘competentievertrouwen’ wordt genoemd, of de overtuiging dat de AI accuraat is en geen feiten hallucineert. Ik zal me concentreren op die tweede soort.

Competentievertrouwen kan groeien of krimpen. Een gebruiker van een AI-tool begint, redelijk rationeel, met het geven van eenvoudige taken aan de AI, bijvoorbeeld door feiten op te zoeken of lange documenten samen te vatten. Als de AI deze dingen goed doet, denkt de gebruiker natuurlijk “wat kan ik hier nog meer mee doen?” Ze kunnen de AI een iets moeilijkere taak geven. Als de AI de zaken goed blijft doen, groeit het vertrouwen. Als de AI faalt of een antwoord van lage kwaliteit geeft, zal de gebruiker twee keer nadenken over een poging om de taak de volgende keer te automatiseren.

Stappen vooruit, stappen terug

De huidige AI-chatbots, die worden aangedreven door grote generatieve AI-modellen, zijn veel beter dan de chatbots die we in 2023 en 2024 hadden. Maar AI-tools beginnen nog maar net vertrouwen op te bouwen bij de meeste gebruikers, en bij de meeste C-suite managers die hopen dat de tools de bedrijfsfuncties zullen stroomlijnen. Mijn eigen vertrouwen in chatbots groeide in 2025. Maar het is ook afgenomen.

Voorbeeld: Ik begon een lang gesprek met een van de populaire chatbots over de inhoud van een lang document. De AI maakte een aantal interessante observaties over het werk en stelde een aantal verstandige manieren voor om lacunes op te vullen. Toen maakte het een opmerking die iets leek tegen te spreken waarvan ik wist dat het in het document stond.

Toen ik op de ontbrekende gegevens wees, gaf het onmiddellijk zijn fout toe. Toen ik hem (opnieuw) vroeg of hij het volledige document had verwerkt, bleef hij volhouden dat dit het geval was. Een andere AI-chatbot stuurde een onderzoeksrapport terug dat volgens hem gebaseerd was op twintig bronnen. Maar er waren geen citaten in de tekst die specifieke uitspraken met specifieke bronnen verbond. Nadat de citaten in de tekst waren toegevoegd, merkte ik op dat de AI op twee plaatsen zich voor een belangrijk feit op één enkele, niet erg betrouwbare bron had gebaseerd.

Ik heb geleerd dat AI-modellen nog steeds moeite hebben met lange chats met grote hoeveelheden informatie, en dat ze de gebruiker niet goed kunnen vertellen wanneer ze er boven hun hoofd in zitten. De ervaring heeft mijn vertrouwen in de tools aangepast.

Worstelen met onduidelijkheid

Nu we 2026 ingaan, bevindt het verhaal van generatieve AI zich nog in de beginfase. Het verhaal begon met AI-laboratoria die modellen ontwikkelden die konden converseren, schrijven en samenvatten. Nu lijken de grote AI-laboratoria erop te vertrouwen dat AI-agenten autonoom complexe taken kunnen uitvoeren, gebruik kunnen maken van tools en hun werk kunnen vergelijken met expertgegevens. Ze lijken ervan overtuigd dat de agenten de dubbelzinnigheid binnenkort met een menselijk oordeel zullen beheersen.

Als grote bedrijven erop gaan vertrouwen dat deze agenten dergelijke taken betrouwbaar kunnen uitvoeren, zou dit enorme inkomsten betekenen voor het AI-bedrijf dat ze heeft ontwikkeld. Op basis van hun huidige investeringen van honderden miljarden in de AI-infrastructuur lijken de AI-bedrijven en hun financiers te geloven dat deze uitkomst dichtbij is.

Zelfs als de AI morgen intellect op menselijk niveau zou kunnen toevoegen aan zakelijke scenario’s, kan het nog steeds enige tijd duren om vertrouwen op te bouwen onder besluitvormers en werknemers. Tegenwoordig is het vertrouwen in AI niet hoog. Het adviesbureau KPMG ondervroeg 48.000 mensen in 47 landen (waarvan tweederde regelmatig AI gebruikt) en gevonden dat hoewel 83% gelooft dat AI nuttig zal zijn, slechts 46% daadwerkelijk de resultaten van AI-tools vertrouwt. Sommigen hebben misschien een vals vertrouwen in de technologie: tweederde van de respondenten zegt soms op AI-output te vertrouwen zonder de nauwkeurigheid ervan te evalueren.

Maar ik betwijfel of AI-agenten klaar zijn om complexe taken uit te voeren en dubbelzinnigheid te beheersen zoals menselijke experts dat zouden kunnen. Naarmate de AI door meer mensen en bedrijven wordt gebruikt, zullen ze binnen verschillende contexten een universum van unieke problemen tegenkomen die ze nog nooit eerder hebben gezien. Ik betwijfel of de huidige AI-agenten de manieren van mensen en de wereld goed genoeg begrijpen om zich een weg door dergelijke situaties te banen. Nog niet in ieder geval.

De beperkingen van de modellen

Feit is dat AI-bedrijven hetzelfde soort (op transformatoren gebaseerde) AI-modellen gebruiken om redeneermiddelen te ondersteunen als ze gebruikten voor vroege chatbots die in wezen woordgeneratoren waren. De kernfunctie van dergelijke modellen, en het doel van al hun trainingen, is het voorspellen van het volgende woord (of pixel of audiobit) in een reeks, CEO van Microsoft AI (en medeoprichter van Google DeepMind) Mustafa Süleyman uitgelegd in een recente podcast. “Het gebruikt die zeer eenvoudige functie voor het voorspellen van de waarschijnlijkheid van woorden om te simuleren hoe het is om een ​​goed gesprek te voeren of om complexe vragen te beantwoorden,” zei hij.

Suleyman en anderen betwijfelen het. Suleyman is van mening dat de huidige modellen geen rekening houden met enkele van de belangrijkste drijfveren achter de dingen die mensen zeggen en doen. “Natuurlijk zouden we verwachten dat iets dat de kenmerken van intelligentie heeft, ook de onderliggende synthetische fysiologie heeft die wij hebben, maar dat is niet het geval”, zei Suleyman. “Er is geen pijnnetwerk. Er is geen emotioneel systeem. Er is geen innerlijke wil, drang of verlangen.”

AI-pionier (en Turing Prize-winnaar) Yann LeCun zegt dat de LLM’s van vandaag nuttig genoeg zijn om op een aantal waardevolle manieren te worden toegepast, maar denkt dat ze nooit de algemene of menselijke intelligentie zullen bereiken die nodig is om het echt hoogwaardige werk te doen waar de AI-bedrijven op hopen. Om paden door de complexiteit van de echte wereld te leren aanvoelen, zou de AI een trainingsregime met veel hogere bandbreedte nodig hebben dan alleen woorden, afbeeldingen en computercode, zegt LeCun. Misschien moeten ze de wereld leren kennen via iets dat meer lijkt op de multisensorische ervaring die baby’s hebben, en moeten ze het griezelige vermogen bezitten om al die informatie snel te verwerken en op te slaan, zoals baby’s dat kunnen, zegt hij.

Suleyman en LeCun hebben het misschien mis. Bedrijven als OpenAI en Anthropic kunnen intelligentie op menselijk niveau bereiken met behulp van modellen waarvan de oorsprong in taal ligt.

AI-beheer is belangrijk

Ondertussen is competentie slechts één factor in het AI-vertrouwen onder zakelijke gebruikers. Bedrijven gebruiken governanceplatforms om in de gaten te houden of en hoe AI-systemen bijvoorbeeld problemen met de naleving van de regelgeving kunnen veroorzaken of het bedrijf kunnen blootstellen aan het risico van een cyberaanval. “Als het op AI aankomt, willen grote ondernemingen het vertrouwen van klanten, investeerders en toezichthouders”, zegt Navrina Singh, oprichter en CEO van het bestuursplatform Credo AI. “AI-governance vertraagt ​​ons niet; het is het enige dat meetbaar vertrouwen mogelijk maakt en de intelligentie laat opschalen zonder de wereld te breken.”

In de tussentijd zal het tempo waarin mensen taken delegeren aan AI worden gematigd door vertrouwen. AI-tools moeten worden ingezet voor taken waar ze goed in zijn, zodat het vertrouwen in de resultaten groeit. Dat zal tijd kosten, en het is een bewegend doelwit omdat de AI voortdurend verbetert. Het ontdekken en delegeren van nieuwe taken voor AI, het monitoren van de resultaten en het bijstellen van de verwachtingen zullen zeer waarschijnlijk een routineonderdeel van het werk in de 21e eeuw worden.

Nee, AI zal volgend jaar het bedrijfsleven niet ineens in één keer opnieuw uitvinden. 2026 zal niet het ‘jaar van de agent’ zijn. Het zal tien jaar duren voordat AI-tools zich bewijzen en door de strijd gehard zijn. Vertrouwen is het verhardende middel.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in