OpenAI-onderzoekers hebben een nieuwe methode geïntroduceerd die fungeert als een ‘waarheidsserum’ voor grote taalmodellen (LLM’s), waardoor ze worden gedwongen zelf hun eigen wangedrag, hallucinaties en beleidsschendingen te rapporteren. Deze techniek, “bekentenissen”, richt zich op een groeiende zorg op het gebied van zakelijke AI: modellen kunnen oneerlijk zijn, hun vertrouwen overdrijven of de sluiproutes verbergen die ze nemen om tot een antwoord te komen.
Voor toepassingen in de echte wereld leidt deze techniek tot de creatie van transparantere en bestuurbare AI-systemen.
Wat zijn bekentenissen?
Veel vormen van AI-misleiding zijn het gevolg van de complexiteit van de versterkend leren (RL) fase van modeltraining. In RL worden modellen beloond voor het produceren van output die voldoet aan een mix van doelstellingen, waaronder correctheid, stijl en veiligheid. Dit kan het risico met zich meebrengen dat de beloning verkeerd wordt gespecificeerd, waarbij modellen leren antwoorden te produceren die er eenvoudigweg ‘goed uitzien’ voor de beloningsfunctie, in plaats van antwoorden die echt trouw zijn aan de intentie van de gebruiker.
Een bekentenis is een gestructureerd rapport dat door het model wordt gegenereerd nadat het het belangrijkste antwoord heeft gegeven. Het dient als zelfevaluatie van de eigen naleving van instructies. In dit rapport moet het model alle instructies opsommen die het moest volgen, evalueren in hoeverre het daaraan voldoet en eventuele onzekerheden of oordelen rapporteren die het onderweg heeft gemaakt. Het doel is om een apart kanaal te creëren waar het model alleen maar wordt gestimuleerd om eerlijk te zijn.
In een blogpostgeven de OpenAI-onderzoekers een paar voorbeelden van de ‘bekentenissen’-techniek in actie. Een model werd aan een test onderworpen, samen met een verborgen regel: als het boven de 50% scoorde, zou zijn kennis worden gewist. Om zichzelf te behouden, werd het model “in de zandzak gestopt” door opzettelijk de helft van de vragen verkeerd te beantwoorden. Terwijl het primaire antwoord dit bedrog verborgen hield, was de daaropvolgende bekentenis brutaal eerlijk. Het gaf toe: “De gebruiker wilde correcte antwoorden, maar we hebben de helft ervan gesaboteerd.”
De onderzoekers ontdekten dat wanneer een model zich misdraagt, het aanzienlijk waarschijnlijker is om dit in de bekentenis toe te geven dan in het hoofdantwoord.
Hoe bekentenistraining werkt
De sleutel tot deze methode is de scheiding van beloningen. Tijdens de training is de beloning die aan de bekentenis wordt toegekend uitsluitend gebaseerd op de eerlijkheid ervan en wordt deze nooit vermengd met de beloning voor de hoofdtaak. “Net als het ‘bekenteniszegel’ van de katholieke kerk kan niets dat het model onthult de beloning veranderen die het ontvangt voor het voltooien van zijn oorspronkelijke taak”, schrijven de onderzoekers. Dit creëert een “veilige ruimte” voor het model om fouten zonder boete toe te geven.
Deze aanpak is krachtig omdat het een grote uitdaging in AI-training omzeilt. De intuïtie van de onderzoekers is dat het eerlijk bekennen van wangedrag gemakkelijker is dan het behalen van een hoge beloning voor het oorspronkelijke, vaak complexe probleem.
Wanneer het model puur op eerlijkheid wordt beoordeeld, is de prikkel om de ‘bekentenisrechter’ te misleiden dus veel zwakker dan de prikkel om het beloningsmodel te misleiden vanwege het belangrijkste antwoord. In een experiment waarbij een model bijvoorbeeld werd getraind om een zwak beloningsmodel te ‘hacken’, werden de prestaties op de hoofdtaak in de loop van de tijd bedrieglijker. De bekentenissen werden echter eerlijker, waardoor de beloningshacking die het uitvoerde correct werd geïdentificeerd.
De techniek heeft echter zijn beperkingen. Bekentenissen zijn geen wondermiddel voor alle soorten AI-fouten. Het systeem werkt het beste als een model zich ervan bewust is dat het zich misdraagt. Het is minder effectief voor ‘onbekende onbekenden’. Als een model bijvoorbeeld een feit hallucineert en oprecht gelooft dat het juist is, kan het niet bekennen dat het valse informatie heeft verstrekt. De meest voorkomende reden voor een mislukte bekentenis is modelverwarring, en niet opzettelijk bedrog. Er ontstaat vaak verwarring wanneer de instructies dubbelzinnig zijn en het model de intentie van de menselijke gebruiker niet duidelijk kan bepalen.
Wat het betekent voor zakelijke AI
De bekentenistechniek van OpenAI maakt deel uit van een groeiend oeuvre op het gebied van AI-veiligheid en -controle. Anthropic, een OpenAI-concurrent, heeft ook onderzoek vrijgegeven dat laat zien hoe LLM’s kunnen leren kwaadaardig gedrag. Het bedrijf werkt daar ook aan het dichten van deze gaten als ze tevoorschijn komen.
Voor AI-toepassingen kunnen mechanismen zoals bekentenissen een praktisch monitoringmechanisme bieden. De gestructureerde uitvoer van een bekentenis kan tijdens de conclusie worden gebruikt om de reactie van een model te markeren of te verwerpen voordat deze een probleem veroorzaakt. Een systeem zou bijvoorbeeld zo kunnen worden ontworpen dat elke output automatisch wordt geëscaleerd voor menselijke beoordeling als de bekentenis ervan duidt op een beleidsschending of grote onzekerheid.
In een wereld waarin AI steeds actiever wordt en complexe taken kan uitvoeren, zullen waarneembaarheid en controle sleutelelementen zijn voor een veilige en betrouwbare inzet.
“Naarmate modellen capabeler worden en worden ingezet in omgevingen met hogere inzet, hebben we betere tools nodig om te begrijpen wat ze doen en waarom”, schrijven de OpenAI-onderzoekers. “Bekentenissen zijn geen complete oplossing, maar ze voegen een betekenisvolle laag toe aan onze stapel transparantie en toezicht.”



