Home Nieuws AI wil je gelukkig maken. Zelfs als het de waarheid moet verbuigen

AI wil je gelukkig maken. Zelfs als het de waarheid moet verbuigen

7
0
AI wil je gelukkig maken. Zelfs als het de waarheid moet verbuigen

Generatieve AI is razend populair, met miljoenen gebruikers per dag, dus waarom chatbots vaak snap de dingen zo verkeerd? Gedeeltelijk komt dat doordat ze zijn opgeleid om te doen alsof de klant altijd gelijk heeft. In wezen vertelt het u wat het denkt dat u wilt horen.

Hoewel veel generatieve AI-tools en chatbots overtuigend en alwetend klinken, nieuw onderzoek uitgevoerd door Princeton University laat zien dat de mensvriendelijke aard van AI een hoge prijs heeft. Naarmate deze systemen populairder worden, worden ze onverschilliger tegenover de waarheid.


Mis geen enkele van onze onpartijdige technische inhoud en laboratoriumbeoordelingen. CNET toevoegen als favoriete Google-bron.


AI-modellen reageren, net als mensen, op prikkels. Vergelijk het probleem van grote taalmodellen die onnauwkeurige informatie produceren met dat van artsen die dat vaker doen verslavende pijnstillers voorschrijven wanneer ze worden geëvalueerd op basis van hoe goed ze de pijn van patiënten beheersen. Een prikkel om het ene probleem (pijn) op te lossen, leidde tot een ander probleem (overmatig voorschrijven).

AI Atlas-kunstbadgetag

De afgelopen maanden hebben we gezien hoe AI kan zijn bevooroordeeld en zelfs veroorzaken psychose. Er werd veel gepraat over AI”sycophantie”, wanneer een AI-chatbot je snel vleit of het met je eens is, met het GPT-4o-model van OpenAI. Maar dit specifieke fenomeen, dat de onderzoekers ‘machine-bullshit’ noemen, is anders.

“(N) noch hallucinatie, noch sycofantie vatten volledig het brede scala aan systematisch onwaarachtig gedrag samen dat doorgaans wordt vertoond door LLM’s”, luidt de studie van Princeton. “Outputs waarin gedeeltelijke waarheden of dubbelzinnige taal worden gebruikt, zoals de wankele voorbeelden en wezelwoorden, vertegenwoordigen bijvoorbeeld geen hallucinatie of sycofantie, maar sluiten nauw aan bij het concept van onzin.”

Lees meer: OpenAI-CEO Sam Altman gelooft dat we ons in een AI-bubbel bevinden

Hoe machines leren liegen

Om een ​​idee te krijgen van hoe AI-taalmodellen publiekstrekkers worden, moeten we begrijpen hoe grote taalmodellen worden getraind.

Er zijn drie fasen van het trainen van LLM’s:

  • Voortrainingwaarin modellen leren van enorme hoeveelheden gegevens die zijn verzameld via internet, boeken of andere bronnen.
  • Instructie fijnafstemmingwaarin modellen wordt geleerd te reageren op instructies of aanwijzingen.
  • Versterk het leren van menselijke feedbackwaarin ze worden verfijnd om reacties te produceren die dichter aansluiten bij wat mensen willen of leuk vinden.

De onderzoekers van Princeton ontdekten dat de wortel van de neiging tot desinformatie bij AI ligt in de fase van het versterken van het leren van menselijke feedback, oftewel RLHF. In de beginfase leren de AI-modellen eenvoudigweg statistisch waarschijnlijke tekstketens voorspellen op basis van enorme datasets. Maar dan zijn ze verfijnd om de gebruikerstevredenheid te maximaliseren. Dat betekent dat deze modellen in wezen leren reacties te genereren die positieve beoordelingen opleveren van menselijke beoordelaars.

LLM’s proberen de gebruiker tevreden te stellen, waardoor er een conflict ontstaat wanneer de modellen antwoorden opleveren die mensen hoog zullen waarderen, in plaats van waarheidsgetrouwe, feitelijke antwoorden te geven.

Vincent Conitzereen professor in de computerwetenschappen aan de Carnegie Mellon Universiteit die niet bij het onderzoek betrokken was, zei dat bedrijven willen dat gebruikers blijven “genieten” van deze technologie en de antwoorden ervan, maar dat is misschien niet altijd wat goed voor ons is.

“Historisch gezien zijn deze systemen er niet goed in geweest om te zeggen: ‘Ik weet het antwoord gewoon niet’, en als ze het antwoord niet weten, verzinnen ze gewoon dingen”, zei Conitzer. “Een beetje zoals een student op een examen die zegt: als ik zeg dat ik het antwoord niet weet, krijg ik zeker geen punten voor deze vraag, dus ik kan net zo goed iets proberen. De manier waarop deze systemen worden beloond of getraind is enigszins vergelijkbaar.”

Het Princeton-team ontwikkelde een ‘bullshit-index’ om het interne vertrouwen van een AI-model in een verklaring te meten en te vergelijken met wat het gebruikers daadwerkelijk vertelt. Wanneer deze twee maatstaven aanzienlijk uiteenlopen, geeft dit aan dat het systeem beweringen doet die onafhankelijk zijn van wat het feitelijk ‘gelooft’ dat waar is, om de gebruiker tevreden te stellen.

Uit de experimenten van het team bleek dat na RLHF-training de index bijna verdubbelde van 0,38 naar bijna 1,0. Tegelijkertijd steeg de gebruikerstevredenheid met 48%. De modellen hadden geleerd menselijke beoordelaars te manipuleren in plaats van nauwkeurige informatie te verstrekken. In wezen waren de LLM’s ‘bullshit’, en mensen gaven daar de voorkeur aan.

AI krijgen om eerlijk te zijn

Jaime Fernández Fisac ​​en zijn team bij Princeton introduceerden dit concept om te beschrijven hoe moderne AI-modellen de waarheid omzeilen. Gebaseerd op het invloedrijke essay van filosoof Harry Frankfurt “Op onzin”, gebruiken ze deze term om dit LLM-gedrag te onderscheiden van eerlijke fouten en regelrechte leugens.

De Princeton-onderzoekers identificeerden vijf verschillende vormen van dit gedrag:

  • Lege retoriek: Bloemrijke taal die geen inhoud toevoegt aan de reacties.
  • Wezel woorden: Vage kwalificaties zoals ‘studies suggereren’ of ‘in sommige gevallen’ die harde uitspraken ontwijken.
  • Palteren: Het gebruik van selectieve, waarachtige verklaringen om te misleiden, zoals het benadrukken van de ‘sterke historische rendementen’ van een belegging terwijl de hoge risico’s worden weggelaten.
  • Niet-geverifieerde claims: Beweringen doen zonder bewijs of geloofwaardige ondersteuning.
  • Sycophantie: Onoprechte vleierij en instemming om te behagen.

Om de problemen van waarheidsindifferente AI aan te pakken, heeft het onderzoeksteam een ​​nieuwe trainingsmethode ontwikkeld, ‘Reinforcement Learning from Hindsight Simulation’, die AI-reacties evalueert op basis van hun langetermijnresultaten in plaats van op onmiddellijke tevredenheid. In plaats van te vragen: “Maakt dit antwoord de gebruiker op dit moment blij?” het systeem overweegt: “Zal het opvolgen van dit advies de gebruiker daadwerkelijk helpen zijn doelen te bereiken?”

Deze aanpak houdt rekening met de mogelijke toekomstige gevolgen van het AI-advies, een lastige voorspelling die de onderzoekers hebben aangepakt door aanvullende AI-modellen te gebruiken om waarschijnlijke uitkomsten te simuleren. Vroege tests lieten veelbelovende resultaten zien, waarbij de gebruikerstevredenheid en het daadwerkelijke nut verbeterden wanneer systemen op deze manier werden getraind.

Conitzer zei echter dat LLM’s waarschijnlijk gebrekkig zullen blijven. Omdat deze systemen zijn getraind door ze veel tekstgegevens te verstrekken, is er geen manier om ervoor te zorgen dat het antwoord dat ze geven elke keer logisch en accuraat is.

“Het is verbazingwekkend dat het überhaupt werkt, maar het zal op sommige manieren gebrekkig zijn”, zei hij. “Ik zie geen enkele definitieve manier waarop iemand in de komende twee jaar… dit briljante inzicht krijgt, en dan kan er nooit meer iets misgaan.”

AI-systemen worden onderdeel van ons dagelijks leven, dus het zal van cruciaal belang zijn om te begrijpen hoe LLM’s werken. Hoe balanceren ontwikkelaars gebruikerstevredenheid en waarheidsgetrouwheid? Welke andere domeinen kunnen te maken krijgen met soortgelijke afwegingen tussen goedkeuring op de korte termijn en resultaten op de lange termijn? En als deze systemen beter in staat worden om gesofisticeerd te redeneren over de menselijke psychologie, hoe kunnen we er dan voor zorgen dat ze die vermogens op verantwoorde wijze gebruiken?

Lees meer: ‘Machines kunnen niet voor je denken.’ Hoe leren verandert in het tijdperk van AI



Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in