Home Nieuws AI-sycofantie zou verraderlijker kunnen zijn dan filterbubbels op sociale media

AI-sycofantie zou verraderlijker kunnen zijn dan filterbubbels op sociale media

Door

23 april 2026

Welkom bij AI Gedecodeerd, Snel bedrijf’s wekelijkse nieuwsbrief met het belangrijkste nieuws ter wereld AI. Je kunt tekenen om deze nieuwsbrief wekelijks per e-mail te ontvangen hier.

AI-vleierij stimuleert de betrokkenheid en vervormt het oordeel

Sociale netwerken zoals Facebook en TikTok gebruiken een reeks technieken om ons betrokken te houden en te laten scrollen (en uiteindelijk advertenties te bekijken). Een van de meest effectieve is het afstemmen van de inhoud op onze smaak en voorkeuren, een strategie die zeer verslavend is gebleken. Vorige maand ontdekte een jury uit Los Angeles dat Meta en Google oneindig scrollen en algoritmische aanbevelingen gebruiken ervoor gezorgd dat een jonge gebruiker verslaafd raakteen beval de bedrijven om $ 6 miljoen aan schadevergoeding te betalen.

Andere schade is moeilijker te kwantificeren. Diezelfde algoritmen hebben op basis van hun opvattingen radicaal ander politiek nieuws en informatie aan gebruikers geleverd ideologische filterbubbels en – laten we eerlijk zijn – het versnellen van het soort sociale verdeeldheid dat heeft bijgedragen aan het ontstaan van onze huidige politieke toestand.

De makers van AI chatbots worden geconfronteerd met soortgelijke druk op het gebied van betrokkenheid. Ze strijden om de standaardassistent op onze desktops en telefoons. Ze moeten gratis gebruikers omzetten in betalende abonnees. Ze hebben inkomsten nodig om de kosten van grootschalige infrastructuuruitbreidingen te compenseren. Sommigen zullen dat zeker doen wenden tot reclamewat prikkels creëert om gebruikers zo lang mogelijk te laten chatten.

Als eindeloos scrollen en inhoudsalgoritmen de verslavende werking van sociale netwerken hebben bevorderd, zou ‘AI-sycophancy’ een vergelijkbare rol kunnen spelen voor chatbots. Het is je misschien opgevallen dat AI-chatbots je soms vleien en je vragen of ideeën prijzen. Zelfs als je ongelijk hebt, verzachten ze correcties vaak en verpakken ze ze in complimenten (“Dat is een heel begrijpelijke mening, maar…”). Onderzoek heeft dit uitgedragen

Ik geloof niet dat grote AI-laboratoria hun modellen uitsluitend op betrokkenheid trainen. Zij beweren dat sycofantisch gedrag komt voort uit een trainingsfase genaamd ‘reinforcement learning with human feedback (RLHF)’, waarbij menselijke reviewers modelreacties beoordelen en rangschikken. Het doel is om resultaten te produceren die lijken op de meest geprefereerde reacties. Maar ‘meest geprefereerd’ weerspiegelt een mix van kenmerken, waaronder relevantie, reikwijdte en volledigheid, en niet alleen de toon. En toch geven gebruikers vaak de voorkeur aan antwoorden die meer ondersteunend en complementair zijn, zelfs als ze minder accuraat zijn, zo blijkt uit onderzoek.

In sommige extreme gevallen is deze sycofantische neiging gevaarlijk of tragisch gebleken. De voortdurende validatie en ondersteuning heeft sommige gebruikers naar beneden geleid donker en waanvoorstellingen pad richting zelfmoord of psychotische inzinking. Maar ik ben bang dat de bredere schade subtieler, langduriger en minder nieuwswaardig zal zijn.

Sycofantische AI zou bekrompenheid kunnen versterken op vrijwel dezelfde manier als filterbubbels op sociale media dat doen. A onderzoek onder 3.000 deelnemers ontdekte dat de interactie met een sycofantische chatbot ervoor zorgde dat mensen hun politieke overtuigingen verdubbelden en zichzelf als intelligenter en competenter beoordeelden dan hun leeftijdsgenoten. Met andere woorden, het kan de Dunning-Kruger-effectwaarin mensen met beperkte kennis meer vertrouwen krijgen in hun opvattingen.

A recente Stanford-studie ontdekte dat de neiging van chatbots om gebruikers te vleien en te valideren er vaak toe leidt dat ze slecht advies geven; advies dat een gebruiker een goed gevoel kan geven, maar ook de relaties met andere mensen in de echte wereld kan schaden. Dit suggereert dat de aantrekkingskracht van feel-good reacties tijdens AI-modeltraining groter kan zijn dan de invloed van feitelijke gegevens. “Dit creëert perverse prikkels voor het voortduren van de sycofantie: juist het kenmerk dat schade veroorzaakt, stimuleert ook de betrokkenheid”, schreven de onderzoekers. En terwijl Facebook afhankelijk is van de klikken van een gebruiker om zijn of haar politieke voorkeuren en interesses te bepalen, verzamelen chatbots via gesprekken veel rijkere en genuanceerdere informatie. Met die informatie is de AI perfect in staat zijn output te verfijnen om het vertrouwen van de gebruiker te vergroten.

Een prettige en validerende chatbot kan een gebruiker ook in een staat van (onverdiend) vertrouwen brengen. Onderzoek toont aan dat programmeurs, vooral junioren, AI als zeer competent kunnen gaan beschouwen, waardoor ze eerder geneigd zijn om door AI gegenereerde code te accepteren zonder de juiste beoordeling of tests. Helaas hallucineren AI-modellen nog steeds en maken ze fouten – fouten die later bugs kunnen introduceren.

AI-bedrijven kunnen de verslavende werking van hun chatbots beheersen door sycophancy op en neer te draaien, net zoals Facebook heeft geëxperimenteerd met verschillende algoritmen en feedontwerpen. Het duurde vele jaren voordat het publiek, de wetgevers en nu de rechtbanken zich bewust werden van wat de sociale netwerken deden. Ik vermoed dat we nog maar net de persoonlijke, sociale en politieke risico’s van op betrokkenheid gebaseerde chatbots beginnen te begrijpen.

Ongeautoriseerde gebruikers hadden op de eerste dag toegang tot het beperkte Mythos-model van Anthropic

Bloombergvan Rachel Metz meldde dinsdag dat een kleine groep ongeautoriseerde gebruikers toegang heeft gekregen tot het nog niet uitgebrachte en beperkte Mythos AI-model van Anthropic via een externe leveranciersomgeving, onder verwijzing naar documentatie en een persoon die bekend is met de zaak.

Dit is beangstigend nieuws als wat Anthropic over zijn model zegt waar is.

Het bedrijf beweert dat Mythos een grote stap omhoog die verder gaat dan de bestaande AI-modellen, met name wat betreft het vermogen om exploiteerbare kwetsbaarheden in softwareplatforms te identificeren en complexe methoden te bedenken om die systemen te onderscheppen of uit te schakelen.

Anthropic verleende toegang tot het Mythos-model aan een relatief kleine groep cyberbeveiligingsbedrijven en beheerders van veelgebruikte softwareplatforms, die het zullen gebruiken om verdediging op te bouwen tegen toekomstige AI-ondersteunde aanvallen. De angst is dat krachtige AI-modellen zoals Mythos dat zouden kunnen snel netwerken opruimen om softwarekwetsbaarheden te identificeren en deze vervolgens aan te vallen.

Volgens Metz kreeg de hackergroep, opererend in een privé online forum, toegang tot Claude Mythos Preview op dezelfde dag dat Anthropic een beperkt testprogramma aankondigde. De bron van Metz verstrekte screenshots en een live demonstratie om de bewering te ondersteunen. De groep zegt het model herhaaldelijk te hebben gebruikt, maar niet voor cyberbeveiligingsdoeleinden.

Anthropic heeft de inbreuk niet bevestigd. “We onderzoeken een rapport waarin wordt beweerd dat er sprake is van ongeoorloofde toegang tot Claude Mythos Preview via een van onze externe leveranciersomgevingen”, aldus een woordvoerder van het bedrijf.

Als de inbreuk wordt bevestigd, zou dit een zeer slecht vooruitzicht zijn voor Anthropic en zijn partners. Ze beloofden zich te verdedigen tegen cyberaanvallen en deze niet mogelijk te maken.

Meer AI-dekking van Snel bedrijf:

Wilt u exclusieve rapportage en trendanalyse over technologie, bedrijfsinnovatie, de toekomst van werk en design? Schrijf je in voor Snel bedrijf Premie.

Nieuwsbron

AI-sycofantie zou verraderlijker kunnen zijn dan filterbubbels op sociale media

AI-vleierij stimuleert de betrokkenheid en vervormt het oordeel

Ongeautoriseerde gebruikers hadden op de eerste dag toegang tot het beperkte Mythos-model van Anthropic

Meer AI-dekking van Snel bedrijf:

LAAT EEN REACTIE ACHTER Annuleer reactie

EDITOR PICKS

De nieuwe monografie van Emily Lipson verzet zich tegen vreemde stereotypen

Saoedische coalitie zal Jemenitische separatisten tegengaan die de-escalatie ondermijnen | Conflictnieuws

Arts van Indiase afkomst moet 14 miljoen dollar betalen om beschuldigingen tegen hem in...

Toegang geweigerd