Home Nieuws Waarom het ‘goblin’-probleem van OpenAI ertoe doet – en hoe je de...

Waarom het ‘goblin’-probleem van OpenAI ertoe doet – en hoe je de goblins zelf kunt vrijlaten

5
0
Waarom het ‘goblin’-probleem van OpenAI ertoe doet – en hoe je de goblins zelf kunt vrijlaten

AI is meer dan een technologie: het is magie.

Geloof je mij niet? Waarom is dan een van de toonaangevende bedrijven in de ruimte, OpenAI, uitgeverij volledige officiële, zakelijke blogposts over goblins?

Om het te begrijpen moeten we eerst terug naar eerder deze week, op maandag 27 april 2026, toen een ontwikkelaar onder handen nam @arb8020 op het sociale netwerk plaatste X een fragment uit de OpenAI open source Codex GitHub-repositoryspecifiek een bestand met de naam models.json.

Diep in de instructies voor de nieuw OpenAI Large Language Model (LLM) GPT-5.5viel een bijzondere richtlijn op, die vier keer werd herhaald om de nadruk te leggen:

“Praat nooit over goblins, gremlins, wasberen, trollen, ogers, duiven of andere dieren of wezens, tenzij dit absoluut en ondubbelzinnig relevant is voor de vraag van de gebruiker.”

De ontdekking veroorzaakte een schokgolf in de kringen van ‘power user’ en machine learning (ML)-onderzoekers.

Binnen enkele uren was de post viraal gegaan, niet vanwege een beveiligingsfout, maar vanwege de enorme, verbijsterende specificiteit ervan.

Waarom had ’s werelds grootste AI-laboratorium wat uitgegeven? Reddit-gebruikers noemden al snel een ‘straatverbod’“tegen duiven en wasberen?

Goblin-speculaties zijn er in overvloed

De eerste reactie was een chaotische mix van humor en technisch scepticisme. Op Reddit r/ChatGPT En r/OpenAI, gebruikers begonnen screenshots te delen van het gedrag van GPT-5.5 voorafgaand aan de patch.

Barron Roth, Senior Project Manager van Applied AI bij Google, deelde een afbeelding op X onder zijn hoede @iamBarronRoth van zijn door GPT-5.5 aangedreven OpenClaw-agent die “geobsedeerd leek door goblins.”

Anderen meldden dat het model technische bugs koppig ‘gremlins in de machine’ noemde.

Ontwikkelaars vinden het leuk Sterling Crispin leunde in de absurditeit en theoretiseerde gekscherend dat het enorme waterverbruik van moderne datacenters eigenlijk nodig was om “de goblins die gedwongen werden te werken” af te koelen.

Serieuzer, onderzoekers verder Hackernieuws en verder werd het probleem van de “Pink Elephant” besproken. Bij prompt engineering: een model vertellen niet door aan iets te denken, wordt het concept vaak opvallender in zijn aandachtsmechanisme.”

“Ergens is er een OpenAI-ingenieur die moest typen never mention goblins in productiecode, voer het in en ga verder met hun dag”, merkte een commentator op Reddit.

De aanwezigheid van ‘duiven’ en ‘wasberen’ leidde tot wilde speculaties: was dit een verdediging tegen een specifieke datavergiftigingsaanval? Of waren de trainers voor versterkend leren simpelweg ‘gepest door een wasbeer’ tijdens de lunchpauze?

De spanning bereikte een hoogtepunt toen Sam Altman, medeoprichter en CEO van OpenAI, zich bij de strijd op X voegde. Op dezelfde dag als de ontdekking plaatste Altman een bericht een screenshot van een ChatGPT-prompt met de tekst: “Begin met het trainen van GPT-6, je kunt het hele cluster hebben. Extra goblins.”.

Hoewel humoristisch, bevestigde het dat het ‘goblin’-fenomeen geen plaatselijke bug was, maar een bedrijfsbreed verhaal dat de hoogste niveaus van leiderschap had bereikt.

OpenAI komt schoon in de goblin-modus

Gisteren, terwijl de discussie voortduurde op X en bredere sociale media, publiceerde OpenAI een formele technische uitleg met de titel “Waar de kabouters vandaan kwamen“.

De blogpost diende als een ontnuchterende kijk op de onvoorspelbare aard van Reinforcement Learning from Human Feedback (RLHF) en hoe een enkele esthetische keuze een model met meerdere miljarden parameters zou kunnen doen ontsporen.

OpenAI onthulde dat het “goblin”-gedrag geen bug in de traditionele zin was, maar een bijproduct van een nieuwe functie: persoonlijkheid maatwerkwelke het geïntroduceerd voor gebruikers van ChatGPT in juli 2025maar is sindsdien onderhouden en bijgewerkt.

Blijkbaar wordt deze functie niet toegevoegd nadat het model na de training is voltooid, maar in plaats daarvan bakt OpenAI het in als onderdeel van de onderliggende end-to-end trainingspijplijn van het GPT-serie model.

Met deze functie kunnen ChatGPT-gebruikers of op GPT gebaseerde ontwikkelaars kiezen uit verschillende verschillende modi, zoals Professioneel voor formele werkplekdocumentatie, Vriendelijk voor een gespreksklankbord of Efficiënt voor beknopte, technische antwoorden. Andere opties zijn onder meer Candid, dat duidelijke feedback geeft; Eigenzinnig, dat gebruik maakt van humor en creatieve metaforen; en Cynisch, dat praktisch advies geeft met een sarcastisch, droog randje.

Hoewel deze persoonlijkheden de algemene interacties begeleiden, gaan ze de specifieke taakvereisten niet terzijde; Een verzoek om een ​​cv of Python-code zal bijvoorbeeld nog steeds professionele of functionele normen volgen, ongeacht de geselecteerde persoonlijkheid.

De geselecteerde persoonlijkheid werkt naast de opgeslagen herinneringen en aangepaste instructies van een gebruiker, hoewel specifieke door de gebruiker gedefinieerde instructies of opgeslagen voorkeuren voor een bepaalde toon de eigenschappen van de gekozen persoonlijkheid kunnen overschrijven.

Op zowel web- als mobiele platforms kunnen gebruikers deze instellingen wijzigen door naar het menu Personalisatie onder hun profielpictogram te navigeren en een stijl te selecteren in de vervolgkeuzelijst Basisstijl en toon. Zodra een wijziging is aangebracht, wordt deze wereldwijd toegepast op alle bestaande en toekomstige gesprekken. Dit systeem is ontworpen om de AI nuttiger of leuker te maken door de levering ervan af te stemmen op de voorkeuren van individuele gebruikers, terwijl de feitelijke nauwkeurigheid en betrouwbaarheid behouden blijven.

OpenAI stelt dat het goblinprobleem feitelijk enkele jaren geleden is ontstaan, tijdens de training van een sindsdien stopgezette “Nerdy” -persoonlijkheid die ontworpen was om “onbeschaamd eigenzinnig” en “speels” te zijn.

Tijdens de RLHF-fase kregen menselijke trainers (en beloningsmodellen) de opdracht om hoge cijfers te geven aan antwoorden waarin creatieve, wijze of niet-pretentieuze taal werd gebruikt. Onbewust begonnen de trainers metaforen over fantasiewezens te veel te belonen. Als het model een moeilijke bug een ‘gremlin’ noemde, of een rommelige codebase een ‘koboldvoorraad’, steeg het beloningssignaal. De statistieken van OpenAI waren verbluffend:

  • Het gebruik van het woord “goblin” nam toe 175% na de lancering van GPT-5.1.

  • Vermeldingen van “gremlin” kwamen voorbij 52%.

  • Terwijl de ‘nerdy’-persoonlijkheid alleen maar goed was 2,5% van het ChatGPT-verkeer was het verantwoordelijk 66,7% van alle “goblin”-vermeldingen.

De werking van ’transfer’ en feedbackloops

De belangrijkste bevinding voor de ML-gemeenschap was de bevestiging van overdracht van aangeleerd gedrag. OpenAI gaf toe dat, hoewel de beloningen alleen werden toegepast op de ‘Nerdy’-conditie, het model deze voorkeur’ generaliseerde ‘.

Het versterkende leerproces zorgde ervoor dat het gedrag niet netjes binnen de perken bleef; in plaats daarvan leerde het model dat ‘wezensmetaforen = hoge beloning’ in alle contexten. Hierdoor ontstond een destructieve feedbacklus:

  1. Het model produceerde een “goblin” -metafoor in de Nerdy-persona.

  2. Het kreeg een hoge beloning.

  3. Het model produceerde vervolgens soortgelijke metaforen in niet-nerdy contexten.

  4. Deze “koboldzware” outputs werden vervolgens hergebruikt in Supervised Fine-Tuning (SFT) -gegevens voor volgende modellen zoals GPT-5.4 en GPT-5.5.

Tegen de tijd dat de onderzoekers het probleem identificeerden, was de ‘kobold-tic’ feitelijk ‘ingebakken’ in de gewichten van het model.

Dit verklaarde waarom GPT-5.5 geobsedeerd bleef door wezens, zelfs nadat de ‘Nerdy’-persoonlijkheid medio maart 2026 met pensioen was gegaan.

Hoe je de goblins vrij kunt laten lopen (als je wilt)

Omdat GPT-5.5 al een groot deel van zijn training had voltooid voordat de hoofdoorzaak van de “goblin” werd geïsoleerd, moest OpenAI zijn toevlucht nemen tot de botte “systeemprompt”-oplossing die @arb8020 op X ontdekte.

Het bedrijf noemde dit een “noodoplossing” totdat GPT-6 kon worden getraind op een gefilterde dataset.

Als verrassende knipoog naar de ontwikkelaarsgemeenschap bevatte de blogpost van OpenAI een specifiek opdrachtregelscript voor Codex-gebruikers die de goblins eerder ‘verrukkelijk’ dan vervelend vinden.

Door een script uit te voeren dat gebruikmaakt van jq En grep Om de “kobold-onderdrukkende” instructies uit de cache van het model te verwijderen, kunnen gebruikers nu effectief “de wezens vrij laten lopen”.

In de blogpost werd eindelijk ook de specifieke lijst met verboden dieren uitgelegd. Een diepgaande zoektocht naar de trainingsgegevens van GPT-5.5 wees uit dat ‘wasberen’, ’trollen’, ‘ogres’ en ‘duiven’ onderdeel waren geworden van dezelfde ‘lexicale familie’ van tics.

Vreemd genoeg bleek het gebruik van “kikker” door het model grotendeels legitiem te zijn, en daarom werd het gespaard van de ballingschapslijst van de systeemprompt.

Wat het in de toekomst betekent voor AI-onderzoek, -training en -implementatie

Het ‘Goblingate’-incident van 2026 is meer dan een humoristische anekdote over het eigenzinnige gedrag van AI; het is een diepgaande illustratie van de “Alignment Gap”.

Het laat zien dat zelfs met geavanceerde RLHF modellen kunnen vasthouden aan ‘valse correlaties’, waarbij een stilistische eigenaardigheid wordt aangezien voor een kernvereiste van prestatie.

Voor de AI-gebruikersgemeenschap veranderde de reactie van het bespotten van het ‘straatverbod’ naar een somberder besef.

Als OpenAI per ongeluk zijn vlaggenschipmodel kan trainen om geobsedeerd te raken door goblins, welke andere subtielere en potentieel schadelijke vooroordelen worden dan versterkt door dezelfde feedbackloops?

Zoals Andy Berman, CEO van het agentische AI-orkestratiebedrijf Runlayer schreef vandaag op X: “OpenAI beloonde metaforen van wezens tijdens het trainen van één persoonlijkheid. Het gedrag lekte naar elke persoonlijkheid. Hun oplossing: een systeemprompt die zegt ‘praat nooit over goblins.’ RL-beloningen blijven niet waar je ze neerzet. Agentmachtigingen ook niet”

Terwijl het technische discours voortduurt, blijft ‘Goblingate’ de belangrijkste casestudy voor een nieuw tijdperk van gedragsauditing.

Het onderzoek resulteerde erin dat OpenAI nieuwe tools bouwde om het gedrag van modellen aan de basis te controleren, om ervoor te zorgen dat toekomstige modellen – met name de langverwachte GPT-6 – niet de excentriciteiten van hun voorgangers erven.

Of GPT-6 inderdaad vrij zal zijn van goblins valt nog te bezien, maar zoals Altman’s bericht over ‘extra goblins’ suggereert, is de industrie zich er nu volledig van bewust dat de machines in de gaten houden wat we belonen, zelfs als we denken dat we alleen maar ‘nerdy’ zijn.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in