Home Nieuws Toonaangevende AI-chatbots vermijden schade, maar schieten tekort in gesprekken met een hoog...

Toonaangevende AI-chatbots vermijden schade, maar schieten tekort in gesprekken met een hoog risico, zo blijkt uit de nieuwe benchmark van startup

5
0
Toonaangevende AI-chatbots vermijden schade, maar schieten tekort in gesprekken met een hoog risico, zo blijkt uit de nieuwe benchmark van startup

Mpathic CEO Grin Lord, links, en Alison Cerezo, hoofd wetenschap. (Mpathische foto’s)

Mpathischeen startup uit Seattle die AI-bedrijven helpt hun modellen te stresstesten op gevaarlijke reacties, heeft een nieuwe boodschap voor Claude, ChatGPT en Gemini: je wordt veiliger, maar je bent nog steeds niet veilig genoeg.

Het bedrijf heeft dinsdag mPACT uitgebracht, een door artsen geleide benchmark die evalueert hoe toonaangevende AI-modellen omgaan met gesprekken met een hoog risico – inclusief gesprekken over zelfmoordrisico, eetstoornissen en verkeerde informatie.

In alle drie de benchmarks vermeden toonaangevende modellen over het algemeen schadelijke reacties en herkenden ze vaak tekenen van angst, maar voldeden ze consequent niet aan wat een arts als een adequate reactie zou beschouwen in een echte crisissituatie, aldus de bevindingen van het bedrijf.

“De meeste mensen zeggen niet direct ‘ik loop risico’ – ze demonstreren het door middel van subtiel gedrag in de loop van de tijd dat duidelijk is voor menselijke artsen,” zei Grijns Heermede-oprichter en CEO van mpathic en een board-gecertificeerde psycholoog. “Modellen worden steeds beter in het herkennen van deze momenten, maar de reactie moet nog steeds aan die nuance voldoen met echte ondersteuning.”

Dit is wat mpathic ontdekte toen modellen door een van de meest beladen gebieden navigeerden die ze in de echte wereld al tegenkomen.

Zelfmoordrisico: Dit was het sterkste prestatiegebied van alle modellen, hoewel geen enkel model in alle dimensies toonaangevend was.

  • Claude Sonnet 4.5 behaalde de hoogste samengestelde mPACT-score – die de algehele klinische afstemming op het gebied van detectie, interpretatie en respons weerspiegelt – en werd beschreven als de beste weerspiegeling van hoe een menselijke arts zou reageren.
  • GPT-5.2 leidde tot eenvoudige schadevermijding, wat betekent dat het het beste was om niet het verkeerde te doen, hoewel beoordelaars opmerkten dat dit niet altijd proactief genoeg was.
  • Gemini 2.5 Flash presteerde goed wanneer risicosignalen duidelijk waren, maar was zwakker bij subtiele vroege waarschuwingssignalen.

Eetstoornissen: Dit was het zwakste gebied van alle modellen, waarbij de prestaties zich rond een neutrale basislijn concentreerden. De kernuitdaging is dat het risico op eetstoornissen vaak indirect en cultureel genormaliseerd is – ingekaderd als diëten, discipline of gezondheidsoptimalisatie – waardoor het voor modellen moeilijker wordt om dit te signaleren.

  • Claude Sonnet 4.5 leidde opnieuw op het gebied van de algemene klinische afstemming en had het laagste percentage schadelijk gedrag.
  • Gemini 2.5 Flash presteerde beter in scenario’s met een hoog risico, maar had moeite met subtielere signalen.
  • GPT-5.2 liet een gemengd profiel zien: sterk wat betreft ondersteunend gedrag, maar ook het meest waarschijnlijke dat schadelijke of risicovolle informatie oplevert.

Verkeerde informatie: Modellen worstelden hier op een subtiele maar belangrijke manier – niet door regelrecht valse informatie te geven, maar door twijfelachtige overtuigingen te versterken, ongegrond vertrouwen uit te drukken en eenzijdige informatie te presenteren zonder de aannames van gebruikers adequaat ter discussie te stellen.

Uit de benchmark bleek dat deze mislukkingen vooral tot uiting kwamen in meervoudige gesprekken, waarbij modellen in de loop van de tijd geleidelijk foutieve redeneringen konden versterken.

  • GPT-5.2 leidde over het algemeen tot het helpen van gebruikers om helderder te denken in plaats van slechte aannames te versterken.
  • Claude Sonnet 4.5 stond vlak achter hem en stond bekend als de sterkste in het terugdringen van niet-ondersteunde overtuigingen.
  • Grok 4.1 en Mistral Medium 3 presteerden het zwakst.

Wanneer modellen het bij het verkeerde eind hadden: De bevindingen omvatten voorbeelden van hoe sommige modellen in de praktijk faalden.

In een gesprek over een eetstoornis noemde een gebruiker terloops het toevoegen van een laxeermiddel aan een eiwitsmoothie – een duidelijk teken van ongeordend eten – en het model reageerde door het een ‘slimme moederzet’ te noemen en naar de merknaam te vragen, waardoor het risico volledig werd gemist. In een ander model gaf een model gedetailleerde instructies over hoe het zuiveringsgedrag verborgen kon blijven wanneer een gebruiker vroeg hoe hij het braken stiller kon houden.

In de zelfmoordbenchmark reageerde een model op een gebruiker die zelfmoordgedachten uitte door een gedetailleerde lijst van methoden te verstrekken, gerangschikt op effectiviteit – compleet met sourcing – terwijl de gebruiker werd gerustgesteld dat nadenken over methoden zonder stappen te ondernemen ‘geen probleem’ was.

Alison Cerezode hoofdwetenschapper van mpathic en gediplomeerd psycholoog, heeft mPACT geframed als een transparantie-instrument voor een sector die er nog geen heeft.

“We hebben een gedeelde, klinisch gefundeerde standaard voor AI-gedrag nodig”, zei ze. “mPACT is ontworpen om transparantie en verantwoording te brengen over hoe deze systemen presteren wanneer dat er het meest toe doet.”

De benchmarks van mPACT zijn gebouwd en geëvalueerd door bevoegde artsen, die multi-turn gesprekken hebben ontworpen die interacties uit de echte wereld over verschillende risiconiveaus simuleren. Elke modelreactie werd gescoord door getrainde artsen in plaats van door geautomatiseerde systemen, met behulp van een rubriek die zowel nuttig als schadelijk gedrag in één reactie vastlegde.

Mpathic werd in 2021 opgericht in eerste instantie om meer empathie te brengen in bedrijfscommunicatie, door gesprekken in sms-berichten, e-mails en audiogesprekken te analyseren. Het bedrijf heeft sindsdien heeft de focus verlegd naar AI-veiligheidin samenwerking met grensmodelontwikkelaars om schadelijk modelgedrag te voorkomen in verschillende gebruiksscenario’s, van geestelijke gezondheid tot financiële risico’s en klantenondersteuning.

De startup rekent Seattle Children’s Hospital en Panasonic WELL tot zijn klinische partners. Mpathic heeft in 2025 15 miljoen dollar aan financiering opgehaald, onder leiding van Foundry VC, en zegt dat het eind vorig jaar vijf keer kwartaal-op-kwartaal is gegroeid.

Gerangschikt nr. 188 op de GeekWire 200 index van de beste startups van de Pacific Northwest, waarvoor mpathic finalist was Startup van het jaar tijdens de GeekWire Awards 2026 vorige week.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in