Er is slecht nieuws voor degenen die digitale enquêtes gebruiken om het onlinegedrag van mensen te begrijpen: we kunnen mogelijk niet langer bepalen of een mens erop reageert of niet, zo heeft een recent onderzoek aangetoond – en er lijkt geen manier om dit probleem te omzeilen.
Dit betekent dat alle online prospectie kwetsbaar kan zijn voor het verkeerd weergeven van de ware mening van mensen. Dit kan gevolgen hebben voor alles wat onder de categorie ‘informatieoorlogvoering’ valt, van opiniepeilingen tot verkeerde informatie en fraude. Niet-menselijke enquêterespondenten kunnen in totaal van invloed zijn op alles, van smaken en prijzen voor een pakje kauwgom tot iets schadelijkers, zoals de vraag of iemand wel of niet overheidsvoordelen kan krijgen – en wat die zouden moeten zijn.
Het probleem hier is tweeledig: 1) mensen zijn niet in staat het verschil te zien tussen reacties van mensen en bots, en 2) in gevallen waarin automatisering actie reguleert op basis van deze reacties, zou er geen manier zijn om dergelijke peilingen te gebruiken en bescherming te bieden tegen potentieel gevaarlijke problemen als gevolg van deze niet-onderscheidbaarheid.
De studie van Sean J. Westwood uit Dartmouth in de “PNAS-dagboek van de Nationale Academie van Wetenschappen”, getiteld “De potentiële existentiële bedreiging van grote taalmodellen voor online enquêteonderzoekbeweert te laten zien hoe we er niet langer op kunnen vertrouwen dat we bij enquêteonderzoek niet langer eenvoudigweg kunnen aannemen dat een ‘coherente reactie een menselijke reactie is’. Westwood creëerde een autonome agent die in staat was om “enquêtereacties van hoge kwaliteit te produceren die de redenering en samenhang aantonen die van menselijke reacties worden verwacht.”
Om dit te doen ontwierp Westwood een ‘model-agnostisch’ systeem dat is ontworpen voor redeneren voor algemene doeleinden en dat zich richt op een architectuur met twee lagen: een die fungeert als interface voor het enquêteplatform en meerdere soorten zoekopdrachten kan verwerken terwijl relevante inhoud wordt geëxtraheerd, en een andere ‘kernlaag’ die een ‘redeneermachine’ gebruikt (zoals een LLM). Wanneer een onderzoek wordt uitgevoerd, laadt de software van Westwood een ‘demografische persona’ die een deel van eerdere antwoorden kan opslaan en vervolgens vragen kan verwerken om een ’contextueel passend antwoord’ als antwoord te geven.
Zodra de ‘redeneringsmachine’ tot een antwoord besluit, geeft de interface in de eerste laag een nagebootste menselijke reactie weer. Het systeem is ook “ontworpen om tools te bieden voor het omzeilen van antibotmaatregelen zoals reCAPTCHA.” Het systeem van Westwood heeft niet tot doel “de totale populatieverdelingen perfect te repliceren… maar om individuele onderzoeksinvullingen te produceren (die) door een redelijke onderzoeker als redelijk zouden worden beschouwd.”
De resultaten van Westwood suggereren dat digitale enquêtes wel of niet een waarheidsgetrouwe weerspiegeling van de mening van mensen kunnen zijn. Er is net zo waarschijnlijk een kans dat enquêtes in plaats daarvan zouden kunnen beschrijven wat een LLM aanneemt dat ‘menselijk gedrag’ is. Bovendien, mensen of AI beslissingen nemen op basis van die resultaten zou kunnen neerkomen op het vertrouwen op de ‘meningen’ van gesimuleerde mensen.
Persona’s
Het creëren van synthetische mensen is geen nieuw concept. Romans, visuele media, toneelstukken en adverteerders gebruiken allerlei creatieve ideeën om verschillende mensen te portretteren om hun verhaal te vertellen. In het ontwerp is het idee van “Persona’s” worden al tientallen jaren gebruikt marketing en gebruikersinterfaceontwerp als kostenbesparende en tijdbesparende trend. Persona’s zijn fictieve samenstellingen van mensen en worden weergegeven in categorieën als ‘Voetbalmoeder’, ‘Joe Six-pack’, ‘Technofobe grootmoeder’ of ‘Business Executive’. Behalve dat ze doordrenkt zijn van vooroordelen, zijn Persona’s projecties van wat de mensen die ze creëren, denken dat deze mensen zouden zijn en van welke groepen ze zouden kunnen vertegenwoordigen.
Persona’s vormen een verborgen probleem in design en marketing, juist omdat ze samengesteld zijn uit echte of denkbeeldige mensen, en niet uit echte mensen. De waarden die eraan worden toegeschreven, worden geconstrueerd door de interpretaties van anderen. Als je vertrouwt op persona’s in plaats van op mensen, is het onmogelijk om de ware context te achterhalen van hoe een product of dienst daadwerkelijk wordt gebruikt, aangezien de persona’s door de maker worden geprojecteerd en geen echte mensen zijn in echte situaties.
De problemen bij het gebruik van Persona’s voor het ontwerpen van producten en diensten worden dus vaak pas onderkend lang nadat dergelijke producten of diensten op de markt komen en falen, of andere onvoorziene problemen veroorzaken. Dit zou nog erger kunnen zijn als deze door mensen gegenereerde Persona’s worden vervangen door AI/LLM ChatBot-persona’s met alle vooroordelen die deze met zich meebrengen, inclusief slop invloeden of hallucinaties dat zou hun reacties nog vreemder of mogelijk zelfs psychotischer kunnen maken.
Kwantitatief versus kwalitatief
Een deel van het grotere probleem van het niet begrijpen van de behoeften van mensen met enquêtes begon toen het onderzoek verschoof naar het verzamelen van statistische gegevens op basis van berekeningen, ook wel kwantitatieve methoden genoemd, in plaats van contextuele vragen gebaseerd op gesprekken en sociale relaties met anderen, of kwalitatieve methoden. Toen Big Data online kwam, begonnen mensen kwantitatieve methoden te gebruiken, zoals online enquêtes, A/B-testen en andere technieken om het gedrag van klanten en gebruikers te begrijpen. Omdat machines snel resultaten konden verzamelen, lijkt kwantitatief onderzoek een industriestandaard te zijn geworden voor het begrijpen van mensen.
Het is niet gemakkelijk om kwalitatieve methoden automatiserenen door deze te vervangen door kwantitatieve methoden kan belangrijke context verloren gaan. Sinds er bijna een generatie voorbij is gegaan met de wereld gericht op computationeel tellenis het gemakkelijk om de kwalitatieve datamethoden te vergeten – gevonden in de sociale wetenschappen zoals de antropologie – die gebruik maken van contextuele onderzoeksinterviews met echte mensen om te begrijpen waarom mensen doen wat ze doen, in plaats van te proberen dit af te leiden uit numerieke antwoorden.
Kwalitatief onderzoek kan context geven aan de kwantitatieve gegevens en methoden die afhankelijk zijn van machines voor goddelijke betekenis. Ze kunnen ook buiten de big data-methoden werken en zijn gebaseerd op relaties met echte mensen, waardoor verantwoording wordt afgelegd over hun overtuigingen en meningen. Het proces van praten met echte mensen contextualiseert eerst die inhoud, wat tot betere resultaten leidt. Kwalitatieve methoden kunnen worden gekwantificeerd en geteld, maar kwantitatieve methoden kunnen nog niet gemakkelijk echt breed contextueel worden gemaakt.
Een verschil tussen het gebruik van kwalitatieve en kwantitatieve methoden heeft te maken met transparantie en het begrijpen van de geldigheid van de reacties van mensen. Bij oudere, door mensen gemaakte Persona’s zijn er duidelijke aannames en hiaten: het is grof poppenspel en projectie. Maar wanneer mensen worden vervaardigd door Chatbot/LLM’s die gebruik maken van een corpus aan kennis dat is gewonnen uit enorme hoeveelheden gegevens, kunnen er minder manieren zijn om feit van fictie te scheiden. Bij chatbots en LLM’s is de kunstmatige entiteit zowel de maker van de ‘persoon’, als mogelijk de responder aan de persoonen ofwel de tolk van de reacties van die nep-chatbotpersoonof geïnterpreteerd worden door een LLM. Dat is waar het gevaarlijk kan worden, vooral als de resultaten van dit soort slordig onderzoek worden gebruikt voor zaken als politieke opiniepeilingen of politiewerk.
Het onderzoek van Westwood heeft aangetoond dat: “In plaats van te vertrouwen op broze, vraagspecifieke regels, behouden synthetische respondenten een consistente persoonlijkheid door antwoorden te conditioneren op een initieel demografisch profiel en een dynamische herinnering aan eerdere antwoorden. Dit maakt het mogelijk om ongelijksoortige vragen op een intern coherente manier te beantwoorden, waardoor plausibele, mensachtige patronen ontstaan…” Het kan de context nabootsen, maar deze niet creëren.
Terug naar de basis
Wanneer GenAI zich richt op het uitvoeren van de enquêtes, het optreden als respondenten en het interpreteren van de enquêtes, zullen we dan het verschil kunnen zien tussen GenAI en echte mensen?
Een volledig geautomatiseerde enquêtelus lijkt fictief, totdat we zien hoeveel mensen nu al chatbots/LLM’s gebruiken om delen van het enquêteproces te automatiseren. Iemand zou een persona kunnen genereren en die vervolgens kunnen gebruiken om enquêtes te beantwoorden die “AI” heeft ontworpen, zodat iemand anders vervolgens een Chatbot zal gebruiken om toegang te krijgen tot “AI” om de resultaten te interpreteren. Het kan vreselijk zijn om een volledige lus te maken: iemand kan dan AI gebruiken om de gecreëerde Chatbot, de Chatbot antwoordde, en “AI” de antwoorden op de enquête om te zetten in iets dat gevolgen heeft voor echte mensen die echte behoeften hebben in de echte wereld, maar in plaats daarvan is ontworpen voor nep-mensen met nep-behoeften in een nep-wereld.
Kwalitatief onderzoek is één weg vooruit. Het stelt ons in staat echte mensen te leren kennen, hun antwoorden te valideren en de context te verfijnen via methoden die elk antwoord voor meer diepgang onderzoeken. Dit soort werk kan AI nog niet doen, omdat LLM’s momenteel antwoorden baseren op statistische woordmatching, die ongeraffineerd is. Bots die menselijke antwoorden repliceren zullen een soort gesimuleerd menselijk antwoord nabootsen, maar om te weten wat echte mensen denken en wat dingen voor hen betekenen, moeten bedrijven misschien terug naar inhuren antropologen, die zijn opgeleid om kwalitatieve methoden te gebruiken om verbinding te maken met echte mensen.
Nu AI menselijke reacties op kwantitatieve onderzoeken ten onrechte kan repliceren, staan degenen die geloven dat zowel kwantitatieve methoden als AI de antwoorden zijn op het uitvoeren van nauwkeurig onderzoek, op het punt een harde les te leren die helaas gevolgen voor ons allemaal zal hebben.



