De opdrachten zagen er schitterend uit. Het begrip niet.
Dat was het moment waarop een professor aan de businessschool van de NYU besloot te vechten AI-ondersteunde cursussen met AI-aangedreven mondelinge examens.
Panos Ipeirotis, een professor aan de Stern School of Business van NYU die data science doceert, schreef in een vorige week gepubliceerde blogpost dat hij zich zorgen maakte over de opdrachten van studenten die lezen als “een McKinsey-memo”, maar die niet echt begrepen worden.
Toen hij de leerlingen in de klas opriep en hen vroeg hun inzendingen te verdedigen, hadden velen daar moeite mee.
“Als je je eigen werk niet live kunt verdedigen, meet het geschreven artefact niet wat je denkt dat het meet”, schreef Ipeirotis.
‘Vuur met vuur bestrijden’
Om dat tegen te gaan, heeft hij de mondelinge examens nieuw leven ingeblazen en een AI-agent ingeschakeld om ze op grote schaal af te nemen, in een poging ‘vuur met vuur te bestrijden’.
“We hebben beoordelingen nodig die evolueren naar formaten die begrip, besluitvorming en real-time redeneren belonen”, aldus Ipeirotis.
“Mondelinge examens waren vroeger standaard totdat ze niet meer konden worden geschaald”, voegde hij eraan toe. “Nu maakt AI ze weer schaalbaar.”
In de blogpost waarin het experiment werd beschreven, zei Ipeirotis dat hij en zijn collega de AI-examinator hebben gebouwd met behulp van de conversatiespraaktechnologie van ElevenLabs.
“Schrijf gewoon een prompt waarin je beschrijft wat de agent aan de student moet vragen, en je bent klaar”, zei hij, eraan toevoegend dat het enkele minuten duurde om het in te stellen.
Het mondeling examen bestond uit twee delen. Eerst ondervroeg de AI-agent studenten over hun sluitstukprojecten, waarbij ze hun beslissingen en redeneringen onderzochten. Vervolgens selecteerde het een van de casussen die in de klas werden besproken en stimuleerde het de leerlingen om er live over na te denken.
In de loop van negen dagen beoordeelde het systeem 36 studenten. Elke sessie duurde ongeveer 25 minuten, waarbij de totale computerkosten voor alle 36 studenten ongeveer $ 15 bedroegen. Een door mensen afgenomen mondeling examen zou honderden dollars kunnen kosten tegen de tarieven van onderwijsassistenten, schreef Ipeirotis.
Ipeirotis gebruikte ook AI om de examens te beoordelen. Drie AI-modellen – Claude, Gemini en ChatGPT – beoordeelden elk transcript onafhankelijk. Vervolgens beoordeelden ze elkaars evaluaties, herzagen ze hun scores en kwamen tot een eindcijfer, waarbij Claude optrad als de “voorzitter” om de beslissing samen te vatten.
Ipeirotis zei dat de ‘raad van LLM’s’ consistenter beoordeelde dan mensen, en ‘strikter, maar eerlijker’.
“De feedback was beter dan welk mens dan ook zou produceren”, schreef hij, eraan toevoegend dat de AI-analyse ook hiaten aan het licht bracht in de manier waarop het materiaal werd onderwezen.
Echter, studenten waren verdeeld. Slechts een kleine minderheid gaf de voorkeur aan mondelinge AI-examens, en velen vonden deze stressvoller dan schriftelijke examens – ook al erkenden ze dat ze een betere maatstaf waren voor echt begrip.
Toch zei Ipeirotis dat de mondelinge examens aantoonden ‘hoe leren zou moeten werken’.
“Hoe meer je oefent, hoe beter je wordt”, schreef Ipeirotis.
AI gebruiken bij examens
De blogpost van Ipeirotis komt terwijl universiteiten worstelen met hoe ze moeten testen studenten in het AI-tijdperk.
Een artikel dat in september werd gepubliceerd in het academische tijdschrift ‘Assessment & Evaluation in Higher Education’ zei dat AI een omslag heeft gemaakt beoordeling van studenten tot een ‘slecht probleem’.
De auteurs van het onderzoek interviewden eind 2024 twintig unit-leerstoelen aan een grote Australische universiteit. Via Zoom-interviews van een uur ontdekten ze dat docenten overweldigd waren door zwaardere werklastenverwarring rond het gebruik van AI en een gebrek aan overeenstemming over hoe een AI-proof beoordeling eruit zou moeten zien.
Sommige faculteitsleden vertelden onderzoekers dat AI moet worden behandeld als een hulpmiddel dat studenten onder de knie moeten krijgen. Anderen beschouwen het als academische oneerlijkheid die het leren uitholt. Velen gaven toe dat ze niet zeker wisten hoe ze verder moesten gaan.
In mei, LinkedIn-medeoprichter Reid Hoffman zei in een aflevering van zijn podcast ‘Possible’ dat AI het voor studenten gemakkelijker kan maken om traditionele beoordelingsformaten, zoals essays, te benutten. Universiteiten moeten heroverwegen hoe ze leren evalueren, zei hij, eraan toevoegend dat studenten binnenkort een ‘AI-examinator’ kunnen verwachten.
Hoffman zei dat mondelinge examens minder ruimte laten voor sluiproutes, waardoor studenten echt begrip moeten tonen.


