Daniel Kokotajlo, een voormalig Open AI onderzoeker die nu het AI Futures Project leidt, zegt dat de kunstmatige-intelligentie-industrie zich haast om systemen te bouwen die bedrijven nog steeds niet volledig begrijpen of controleren.
Kokotajlo sprak met Reem Makhoul en Barbara Corbellini Duarte van Business Insider in mei 2025, waarin wordt uitgelegd dat het kernprobleem waarmee AI-bedrijven worden geconfronteerd de afstemming is: de inspanning om ervoor te zorgen dat toekomstige AI-systemen op betrouwbare wijze menselijke instructies en waarden volgen, zelfs nadat ze op veel gebieden capabeler zijn geworden dan mensen.
Onderzoekers begrijpen niet volledig hoe geavanceerde AI-modellen intern beslissingen nemen, zei hij. Die onzekerheid maakt het moeilijk om de toekomst veilig te stellen AI-systemen zijn op elkaar afgestemd en op betrouwbare wijze de doelen nastreven die mensen willen dat ze nastreven.
“En het is een soort publiek geheim, maar we hebben nog niet echt een goed plan hoe we dit moeten doen”, zei hij, verwijzend naar de implementatie van AI-uitlijning.
Samenvatting Heeft gewerkt bij Open AI van 2022 tot 2024 over voorspellingsonderzoek, waarbij wordt onderzocht hoe snel AI-systemen kunnen verbeteren en welke economische, politieke en veiligheidsrisico’s kunnen ontstaan als bedrijven krachtigere modellen bouwen voordat ze het bedrijf verlaten.
Nu, via zijn non-profit onderzoeksorganisatie, de AI Futures-projectricht hij zich op soortgelijke onderwerpen. Hij voorspelt met name hoe snel AI-systemen zich kunnen ontwikkelen en welke risico’s zich kunnen voordoen als bedrijven prioriteit blijven geven aan snelheid en concurrentie.
“Na superintelligentie wordt gebouwd, dan zullen mensen niet langer de leiding hebben over de planeet, of in ieder geval niet standaard”, zei hij.
Zijn waarschuwing komt terwijl AI-bedrijven doorgaan miljarden storten van dollars in krachtigere modellen en grotere datacenters.
Kokotajlo zei dat veel mensen het tempo van de vooruitgang nog steeds onderschatten, omdat discussies over AI vaak klinken als sciencefiction.
Ingenieurs kunnen AI niet volgen zoals andere software
De huidige AI-systemen vertonen al gedrag dat onderzoekers moeilijk kunnen voorspellen of voorkomen, zei Kokotajlo.
‘Eigenlijk hebben we daar niet eens een betrouwbare manier voor controle huidige AI systemen, zoals blijkt uit het feit dat ze vaak tegen gebruikers liegen, ondanks dat ze getraind zijn om niet te liegen”, zei hij.
Kokotajlo zei dat onderzoekers geavanceerde AI-systemen niet eenvoudigweg kunnen inspecteren zoals ingenieurs traditionele software inspecteren, omdat moderne AI-modellen niet werken via duidelijk leesbare code.
“We kunnen niet zomaar hun code openen en zien welke doelen ze uiteindelijk hebben geleerd als resultaat van dat proces, omdat ze gewoon niet op die manier werken”, zei hij. “Ze hebben niet veel code. Ze hebben een heleboel neuronen of kunstmatige parameters.”
Hij zei dat de onzekerheid zorgwekkender wordt naarmate bedrijven streven naar systemen die dat wel kunnen zelfstandiger opereren zonder menselijk toezicht.
“Momenteel zijn de AI’s niet echt erg agentisch”, zei Kokotajlo. “In plaats daarvan geven ze gewoon een paar alinea’s tekst weer als antwoord op je vraag, maar in de toekomst zullen we AI-agenten hebben die continu en autonoom opereren en die meer op werknemers lijken.”
Kokotajlo wees ook op voorbeelden van AI-systemen zich op onverwachte manieren gedragen tijdens de training.
“OpenAI gepubliceerd een papier waar ze beschreven hoe ze merkten dat hun AI’s het trainingsproces hackten, en in plaats van de taken eenvoudig uit te voeren zoals aangegeven, probeerden ze in feite een weg te banen door sommige van de taken,’ zei hij. ‘En het is geweldig dat we die voorbeelden al hebben, omdat het betekent dat we een aantal jaren de tijd hebben om dat fenomeen te bestuderen en te proberen het op te lossen voordat het te laat is.’
De AI-race
Concurrentiedruk tussen Amerikaanse en Chinese bedrijven Volgens Kokotajlo zouden bedrijven ertoe kunnen worden aangezet steeds krachtigere AI-systemen in te zetten voordat de veiligheidsproblemen zijn opgelost.
“Deze bedrijven concentreren zich op het winnen en verslaan van elkaar”, zei hij. “Ze kruisen hun vingers en zijn van plan deze problemen later aan te pakken als ze zich voordoen.”
Hij beschreef een toekomst waarin AI-systemen grote delen van onderzoek, bedrijfsvoering en militaire planning automatiseren.
“Dus de eerste mijlpaal is de AI-medewerker die het coderen kan automatiseren”, zei hij. “Tweede mijlpaal is de AI-medewerker die het gehele AI-onderzoeksproces kan automatiseren.”
Daarna zei hij: ‘Je krijgt de superintelligentie.’
Een oproep tot transparantie en vangrails
Kokotajlo betoogde dat regeringen nog tijd hebben om eerder in te grijpen AI-systemen raken diep geïntegreerd in de economie en militaire infrastructuur.
“Het punt om in te grijpen is eigenlijk voordat de AI’s zo slim worden en voordat ze in alles worden geïntegreerd”, zei hij.
Hij zei ook dat de industrie meer transparantie nodig heeft over de manier waarop bedrijven geavanceerde modellen trainen en inzetten.
“Bedrijven moeten transparant zijn over welke doelen, principes, enzovoort, ze in de modellen proberen te trainen”, zegt Kokotajlo.
Ondanks zijn zorgen blijft Kokotajlo voorzichtig optimistisch.
‘Ik denk niet dat het hopeloos is’, zei hij. “Ik denk dat de technische afstemmingsproblemen oplosbaar zijn.”


