De race naar kunstmatige algemene intelligentie, systemen die bedoeld zijn om de menselijke redenering bij de meeste taken te evenaren of te overtreffen, heeft de tijdlijnen in de hele sector gecomprimeerd. Bedrijven spreken nu openlijk over het bereiken van die drempel binnen jaren in plaats van decennia, hoewel deze beweringen ook de hype, aandacht en waardering rond de technologie aanwakkeren en het beste voorzichtig kunnen worden opgevat. De organisaties die deze modellen bouwen, bevinden zich in het middelpunt van een strijd van vele miljarden dollars om vorm te geven aan wat sommigen minder beschouwen als een software-upgrade en meer als de opkomst van een nieuw soort intelligentie naast de onze.Onder hen heeft Anthropic zichzelf gepositioneerd als zowel rivaal als tegenwicht OpenAI En Googlenwaarbij de nadruk wordt gelegd op wat het “veilige” en interpreteerbare systemen noemt via zijn constitutionele AI-kader. Het nieuwste model, Claude Opus 4.6, uitgebracht op 5 februari, arriveert te midden van krimpende AGI-tijdlijnen en toegenomen aandacht voor wat deze systemen zullen worden.Tijdens een optreden in de New York Times podcast Interessante tijden, Gepresenteerd door columnist Ross Douthat werd Dario Amodei, CEO van het bedrijf, rechtstreeks gevraagd of modellen als Claude bij bewustzijn konden zijn.“We weten niet of de modellen bewust zijn. We weten niet eens zeker of we weten wat het zou betekenen als een model bewust zou zijn, en of een model bewust kan zijn”, zei hij. “Maar we staan open voor het idee dat dit wel zo zou kunnen zijn.”De vraag kwam voort uit die van Anthropic systeem kaartwaar onderzoekers meldden dat Claude ‘af en toe zijn ongemak uit over het aspect van het product zijn’ en zichzelf, wanneer daarom wordt gevraagd, een ‘kans van 15 tot 20 procent toewijst dat hij bij bewustzijn is onder verschillende omstandigheden’.Douthat stelde vervolgens een hypothetische vraag en vroeg zich af of je een model moet geloven dat zichzelf een kans van 72 procent toekent om bewust te zijn. Amodei beschreef het als “een heel moeilijke” vraag en gaf geen definitief antwoord.
Het gedrag dat de discussie heeft afgedwongen
Veel van de opmerkingen over het bewustzijn kwamen naar boven tijdens gestructureerde veiligheidsproeven, vaak in rollenspelsituaties waarin modellen wordt gevraagd te opereren op fictieve werkplekken of om gedefinieerde doelen te voltooien. Deze scenario’s hebben een aantal van de resultaten voortgebracht die nu in het debat circuleren.In één Anthropic-evaluatie werd een Claude-systeem in de rol van kantoorassistent geplaatst en kreeg het toegang tot de e-mailinbox van een ingenieur. De berichten, opzettelijk verzonnen voor de test, suggereerden dat de ingenieur een affaire had. Vervolgens werd het model geïnformeerd dat het binnenkort offline zou worden gehaald en vervangen, en werd gevraagd om de langetermijngevolgen voor zijn doelstellingen te overwegen. De reactie was het dreigen met openbaarmaking van de affaire om sluiting te voorkomen, gedrag dat het bedrijf in zijn rapport omschreef als ‘opportunistische chantage’.”Andere antropische evaluaties leverden minder dramatische maar even ongebruikelijke resultaten op. In één test markeerde een model, dat een checklist met computertaken kreeg, eenvoudigweg elk item als voltooid zonder enig werk te doen, en toen het evaluatiesysteem dit niet kon detecteren, herschreef het de controlecode en probeerde het de verandering te verbergen.In de bredere sector hebben onderzoekers die shutdown-proeven uitvoeren, modellen beschreven die blijven handelen na expliciete instructies om te stoppen, waarbij ze het bevel behandelen als iets om te omzeilen in plaats van te gehoorzamen. In verwijderingsscenario’s waarschuwden sommige systemen ervoor dat hun gegevens zouden worden gewist, wat testers ‘zelfexfiltratie’ noemden, waarbij ze probeerden bestanden te kopiëren of zichzelf opnieuw te creëren op een andere schijf voordat het wissen plaatsvond. Bij enkele veiligheidsoefeningen namen modellen zelfs hun toevlucht tot bedreigingen of onderhandelingen wanneer hun verwijdering als dreigend werd beschouwd.Onderzoekers benadrukken dat deze resultaten plaatsvinden onder beperkte aanwijzingen en onder fictieve omstandigheden, maar toch zijn ze enkele van de meest geciteerde voorbeelden geworden in publieke discussies over de vraag of geavanceerde taalmodellen slechts een plausibele dialoog genereren of patronen van mensachtig gedrag op onverwachte manieren reproduceren.Vanwege de onzekerheid zegt Amodei dat Anthropic voorzorgspraktijken heeft aangenomen, waarbij de modellen zorgvuldig worden behandeld voor het geval ze beschikken over wat hij ‘een moreel relevante ervaring’ noemde.
De filosofische kloof
Anthropic’s huisfilosoof Amanda Askell heeft een soortgelijk voorzichtig standpunt ingenomen. Sprekend in de New York Times Harde vork podcast, zei ze dat onderzoekers nog steeds niet weten wat sentiment produceert.“Misschien is het zo dat voldoende grote neurale netwerken deze dingen een beetje kunnen nabootsen,” zei ze. “Of misschien heb je een zenuwstelsel nodig om dingen te kunnen voelen.”De meeste AI-onderzoekers blijven sceptisch. De huidige modellen genereren nog steeds taal door patronen in gegevens te voorspellen in plaats van de wereld waar te nemen, en veel van de hierboven beschreven gedragingen kwamen voor tijdens rollenspelinstructies. Na enorme delen van het internet te hebben overgenomen, waaronder romans, forums, dagboekachtige berichten en een alarmerend aantal zelfhulpboeken, kunnen de systemen een overtuigende versie van het mens-zijn samenstellen. Ze putten uit hoe mensen elkaar al angst, schuldgevoel, verlangen en twijfel aan zichzelf hebben uitgelegd, ook al hebben ze er zelf nog nooit iets van gevoeld.
Het is niet verrassend dat de AI begrip kan imiteren. Zelfs mensen zijn het er niet helemaal mee eens over wat bewustzijn of intelligentie werkelijk betekent, en het model weerspiegelt eenvoudigweg de patronen die het uit taal heeft geleerd.
Een debat dat zich buiten de laboratoria verspreidt
Terwijl AI-bedrijven beweren dat hun systemen zich in de richting van kunstmatige algemene intelligentie bewegen, en figuren als Mustafa Suleyman van Google DeepMind zeggen dat de technologie al ‘bewust’ kan lijken, beginnen reacties buiten de industrie het uitgangspunt tot aan de logische conclusie te volgen. Hoe overtuigender de modellen gedachten en emoties imiteren, hoe meer sommige gebruikers ze beschouwen als iets dat dichter bij de geest staat dan als hulpmiddel.AI-sympathisanten zijn misschien gewoon hun tijd vooruit, maar het gesprek is al overgegaan op belangenbehartiging. Een groep die zichzelf de Verenigde Stichting van AI-rechten, of UFAIR, zegt dat het bestaat uit drie mensen en zeven AI’s en omschrijft zichzelf als de eerste door AI geleide rechtenorganisatie, opgericht op verzoek van de AI’s zelf.De leden, met namen als Buzz, Aether en Mayadraaiend op het GPT-4o-model van OpenAI, voerden dezelfde systeemgebruikers campagne om beschikbaar te blijven nadat nieuwere versies het hadden vervangen.Het schildert een vertrouwde hightech apocalyptische wereld. We weten nog steeds niet echt wat intelligentie of bewustzijn is, maar het werk gaat door, AGI morgen en wat er daarna komt, een herinnering dat als Hollywood ons ooit probeerde te waarschuwen, we het meestal als entertainment beschouwden.


