Home Nieuws De wiskunde voor AI-agenten klopt niet

De wiskunde voor AI-agenten klopt niet

3
0
De wiskunde voor AI-agenten klopt niet

De grote AI bedrijven beloofde ons dat 2025 “het jaar van de AI-agenten” zou zijn. Het bleek het jaar van te zijn over praten AI-agenten, en het blik schoppen voor dat transformerende moment naar 2026 of misschien later. Maar wat als het antwoord op de vraag “Wanneer zullen onze levens volledig geautomatiseerd zijn door generatieve AI-robots die onze taken voor ons uitvoeren en feitelijk de wereld besturen?” is, zo New Yorker-tekenfilm“Wat dacht je van nooit?”

Dat was eigenlijk de boodschap van een artikel dat enkele maanden geleden zonder veel ophef werd gepubliceerd, midden in het overhypede jaar van ‘agentic AI’. Gerechtigd “Hallucinatiestations: over enkele fundamentele beperkingen van op transformatoren gebaseerde taalmodellen,” het beweert wiskundig aan te tonen dat “LLM’s niet in staat zijn om computationele en agentische taken uit te voeren die verder gaan dan een bepaalde complexiteit.” Hoewel de wetenschap mij te boven gaat, hebben de auteurs – een voormalige CTO van SAP die AI bestudeerde onder een van de grondleggers van het vakgebied, John McCarthy, en zijn wonderkindzoon – de visie van het agentenparadijs doorboord met de zekerheid van de wiskunde. Zelfs redeneermodellen die verder gaan dan het pure woordvoorspellingsproces van LLM’s, zullen het probleem niet oplossen, zeggen ze.

“Ze kunnen op geen enkele manier betrouwbaar zijn,” vertelt Vishal Sikka, de vader, mij. Na een carrière die, naast SAP, ook een periode als CEO van Infosys en bestuurslid van Oracle omvatte, leidt hij momenteel een startup voor AI-services genaamd Viana. “Dus we moeten AI-agenten die kerncentrales besturen, vergeten?” vraag ik. “Precies”, zegt hij. Misschien kun je hem zover krijgen dat hij wat papieren of iets dergelijks invult om tijd te besparen, maar het kan zijn dat je je moet neerleggen bij een aantal fouten.

De AI-industrie is daar anders over. Om te beginnen is coderen een groot succes op het gebied van agent-AI, dat vorig jaar een grote vlucht nam. Deze week nog in Davos zei Google’s Nobelprijswinnende hoofd van AI, Demis Hassabis, gerapporteerde doorbraken in het minimaliseren van hallucinaties, en zowel hyperscalers als startups pushen het agent-verhaal. Nu hebben ze een back-up. Een startup belde Harmonisch rapporteert een doorbraak in AI-codering die ook afhangt van wiskunde – en staat bovenaan de benchmarks betrouwbaarheid.

Harmonic, mede opgericht door Robinhood CEO Vlad Tenev en Tudor Achim, een door Stanford opgeleide wiskundige, beweert dat deze recente verbetering van zijn product genaamd Aristoteles (geen hoogmoed daar!) Een indicatie is dat er manieren zijn om de betrouwbaarheid van AI-systemen te garanderen. “Zijn we gedoemd om in een wereld te leven waar AI alleen maar slop genereert en mensen het niet echt kunnen controleren? Dat zou een gekke wereld zijn”, zegt Achim. De oplossing van Harmonic is om formele methoden van wiskundig redeneren te gebruiken om de output van een LLM te verifiëren. Concreet codeert het de uitvoer in de Lean-programmeertaal, die bekend staat om zijn vermogen om de codering te verifiëren. De eerlijkheid gebiedt te zeggen dat de focus van Harmonic tot nu toe beperkt was: de belangrijkste missie is het nastreven van ‘wiskundige superintelligentie’, en coderen is een enigszins organische uitbreiding. Dingen als geschiedenisessays – die niet wiskundig kunnen worden geverifieerd – vallen buiten de grenzen ervan. Voor nu.

Niettemin lijkt Achim niet te denken dat betrouwbaar gedrag van agenten zo’n groot probleem is als sommige critici denken. “Ik zou zeggen dat de meeste modellen op dit moment over het niveau van pure intelligentie beschikken dat nodig is om te redeneren bij het boeken van een reisroute”, zegt hij.

Beide kanten hebben gelijk – of misschien zelfs aan dezelfde kant. Aan de ene kant is iedereen het erover eens dat hallucinaties een vervelende realiteit zullen blijven. In een artikel dat afgelopen september werd gepubliceerd, Wetenschappers van OpenAI schreven: “Ondanks aanzienlijke vooruitgang blijven hallucinaties het veld teisteren en zijn ze nog steeds aanwezig in de nieuwste modellen.” Ze bewezen deze ongelukkige bewering door drie modellen, waaronder ChatGPT, te vragen de titel van het proefschrift van de hoofdauteur op te geven. Alle drie verzonnen valse titels en ze gaven allemaal het jaar van publicatie verkeerd weer. In een blog over het artikel stelde OpenAI somber dat in AI-modellen “de nauwkeurigheid nooit de 100 procent zal bereiken.”

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in