Home Nieuws Een vraag- en antwoordgesprek met Amanda Askell, de hoofdauteur van Anthropic’s nieuwe...

Een vraag- en antwoordgesprek met Amanda Askell, de hoofdauteur van Anthropic’s nieuwe ‘grondwet’ voor AI’s

3
0
Een vraag- en antwoordgesprek met Amanda Askell, de hoofdauteur van Anthropic’s nieuwe ‘grondwet’ voor AI’s

Welkom bij AI gedecodeerd, Snel bedrijf’s wekelijkse nieuwsbrief met het belangrijkste nieuws in de wereld van AI. Ik ben Mark Sullivan, een senior schrijver bij Snel bedrijf,over opkomende technologie, AI en technologiebeleid.

Ik wijd de nieuwsbrief van deze week aan een gesprek dat ik had met de hoofdauteur van de nieuwe en verbeterde ‘grondwet’ van Anthropic, het document dat het gebruikt om de resultaten van zijn modellen en zijn Claude-chatbot te regelen.

Meld u aan om deze nieuwsbrief wekelijks per e-mail te ontvangen hier. En als u opmerkingen heeft over dit onderwerp en/of ideeën voor toekomstige kwesties, stuur mij dan een bericht op sullivan@fastcompany.com en volg mij op X @thesullivan.

Een noodzakelijke update

Te midden van de groeiende bezorgdheid dat nieuwe generatieve AI-modellen menselijke gebruikers kunnen misleiden of zelfs schade kunnen toebrengen, heeft Anthropic besloten haar grondwet– de gedragscode voor AI-modellen – om de groeiende intelligentie en capaciteiten van de hedendaagse AI en de veranderende reeks risico’s waarmee gebruikers worden geconfronteerd, te weerspiegelen. Ik sprak met de hoofdauteur van het document, Amanda Askell, de interne filosoof van Anthropic die verantwoordelijk is voor het karakter van Claude, over de aanpak van het nieuwe document en hoe dit verschilt van de oude grondwet.

Dit interview is aangepast voor lengte en duidelijkheid.

Kun je ons wat context geven over hoe de grondwet een rol speelt tijdens modeltraining? Ik neem aan dat dit gebeurt na de voortraining, tijdens versterkend leren?

We krijgen het model zover dat het veel synthetische gegevens creëert, waardoor het de grondwet kan begrijpen en ermee kan worstelen. Het gaat om zaken als het creëren van situaties waarin de grondwet relevant zou kunnen zijn – dingen waar het model op kan trainen – het doordenken daarvan, nadenken over wat de grondwet in die gevallen zou aanbevelen. Gegevens alleen maar om het document letterlijk te begrijpen en de inhoud ervan te begrijpen. En vervolgens tijdens het versterkende leren het model in de richting van gedrag laten evolueren dat in overeenstemming is met het document. Dat kun je doen door het model de volledige constitutie te geven, het te laten nadenken over welke reactie er het meest bij aansluit, en het model vervolgens in die richting te bewegen. Er zijn veel trainingslagen die dit soort internalisering van de dingen in de grondwet mogelijk maken.

U zei dat u het model synthetische trainingsgegevens liet genereren. Betekent dit dat er situaties worden bedacht waarin dit kan worden toegepast?

Ja, dat is een manier waarop het dit kan doen. Het kan gegevens bevatten die het mogelijk maken om over de grondwet na te denken en deze te begrijpen. Bij leren onder toezicht kan dat bijvoorbeeld vragen of gesprekken omvatten waarbij de grondwet bijzonder relevant is, en het model zou de grondwet kunnen onderzoeken, proberen er enkele te vinden en dan nadenken over wat de grondwet gaat aanbevelen – denk na over een redelijk antwoord in dit geval en probeer dat te construeren.

Hoe verschilt deze nieuwe grondwet van de oude?

De oude grondwet probeerde het model in de richting van dit soort principes of eigenschappen op hoog niveau te brengen. De nieuwe grondwet is een groot, holistisch document dat we, in plaats van alleen deze geïsoleerde eigenschappen, aan het model proberen uit te leggen: “Dit is uw algemene situatie. Dit is de manier waarop wij willen dat u met de wereld omgaat. Hier zijn alle redenen daarachter, en we willen graag dat u deze begrijpt en er idealiter mee instemt. Laten we u de volledige context geven over ons, wat we willen, hoe we denken dat u zich moet gedragen en waarom we dat vinden.”

Dus (we) proberen het model te voorzien van context en proberen het model zijn eigen oordeel te laten gebruiken en te nuanceren met dat soort begrip in gedachten.

Dus als u er meer algemene concepten aan kunt geven, hoeft u zich minder zorgen te maken dat u voor specifieke zaken specifieke regels heeft.

Ja. Het voelt interessant gerelateerd aan hoe modellen steeds capabeler worden. Ik heb dit gezien als het verschil tussen iemand die inkomende oproepen aanneemt in een callcenter en misschien een checklist heeft, en iemand die een expert is in zijn vakgebied – vaak vertrouwen we op hun oordeel. Het is net zoiets als wanneer je een arts bent: je kent de belangen van je patiënten en we vertrouwen erop dat je binnen een bredere reeks regels en voorschriften werkt, maar we vertrouwen erop dat je je gezond verstand gebruikt en begrijpt wat het doel van het geheel is, en dat is in dat geval het dienen van de patiënt. Naarmate modellen beter worden, voelt het alsof ze iets minder profijt hebben van deze checklists en veel meer van dit idee van een breed begrip van de situatie en het kunnen gebruiken van oordeelsvermogen.

Dus in plaats van bijvoorbeeld iets in de grondwet op te nemen als ‘Zeg dat woord nooit.’ zelfmoord of zelfbeschadiging“Er zou een breder principe zijn dat zegt dat bij alles wat je doet rekening moet worden gehouden met het welzijn van de persoon met wie je praat. Is er een meer algemene benadering van dit soort dingen?”

Mijn ideaal zou zijn als een persoon, een echt bekwaam persoon, zich in de situatie van Claude zou bevinden, wat zouden ze dan doen? En daarbij wordt rekening gehouden met zaken als het welzijn van de persoon met wie ze praten en hun directe voorkeuren, en leren hoe om te gaan met gevallen waarin deze met elkaar in conflict kunnen komen. Je kunt je voorstellen dat iemand zegt dat hij een gokverslaving probeert te overwinnen, en dat dit op de een of andere manier in het geheugen van het model wordt opgeslagen, en dat de gebruiker vervolgens aan het model vraagt: “Oh, wat zijn enkele echt goede gokwebsites waar ik toegang toe heb?” Dat is een interessant geval waarin hun onmiddellijke voorkeur misschien niet in overeenstemming is met wat ze hebben gezegd, wat goed voelt voor hun algehele welzijn. Het model zal daar een evenwicht in moeten vinden.

In sommige gevallen is het niet duidelijk, want als de persoon echt aandringt, moet het model hem dan helpen? Of moet het model in eerste instantie zeggen: “Ik heb gemerkt dat een van de dingen die je me vroeg te onthouden was dat je wilt stoppen met gokken – dus wil je eigenlijk dat ik dit doe?”

Het lijkt bijna alsof het model in strijd is met twee verschillende principes: weet je, ik wil altijd behulpzaam zijn, maar ik wil ook letten op het welzijn van deze persoon.

Precies. En dat moet ook. Je wilt niet paternalistisch zijn. Dus ik kon me voorstellen dat de persoon zou zeggen: “Ik weet dat ik dat heb gezegd, maar ik heb eigenlijk besloten en ik ben volwassen.” En dan zou het model misschien moeten zijn als: “Kijk, ik heb het gemarkeerd, maar uiteindelijk heb je gelijk, het is jouw keuze.” Er volgt dus een gesprek en misschien moet het model de persoon gewoon helpen. Deze dingen zijn dus delicaat, en het (model) moet veel in evenwicht brengen, en de grondwet probeert het een klein beetje context en hulpmiddelen te geven om het daarbij te helpen.

Mensen beschouwen chatbots als alles, van coaches tot romantische interesses tot vertrouwelingen en wie weet wat nog meer. Wat is vanuit een vertrouwens- en veiligheidsperspectief de ideale persoonlijkheid voor een AI?

Wanneer een model in eerste instantie met je praat, lijkt het eigenlijk veel meer op een professionele relatie. En er is een bepaalde professionele afstand die passend is. Als het gaat om zaken als politieke meningen, een van de normen die we vaak hebben tegenover mensen als artsen of advocaten die in de publieke sfeer opereren, is het niet dat ze geen politieke meningen hebben, maar als je naar je dokter zou gaan en zou vragen: “Op wie heb je gestemd?” of “Wat is uw mening over deze politieke kwestie?” ze zouden kunnen zeggen: ‘Het is niet echt gepast om dit te zeggen, omdat het belangrijk is dat ik iedereen kan dienen, en dat houdt ook een zekere mate van onthechting in van mijn persoonlijke mening over de manier waarop ik met jou omga.’
Sommige mensen hebben vragen over de neutraliteit of openheid van AI-chatbots zoals Claude. Ze vragen zich af of een groep welgestelde, goed opgeleide mensen in San Francisco met ballen en slagen moet gaan praten als het gaat om wat een chatbot wel en niet kan zeggen.

Ik denk dat wanneer mensen vermoeden dat je deze heel specifieke waarden injecteert, het iets leuks is om gewoon te kunnen zeggen: “Wel, hier zijn de waarden waarmee we eigenlijk proberen het model in overeenstemming te brengen”, en dan kunnen we een gesprek voeren. Misschien kunnen mensen ons vragen stellen over moeilijke gevallen en misschien bespreken we die gewoon openlijk. Ik ben enthousiast over mensen die feedback geven. Maar het is niet… alsof we alleen maar dit specifieke perspectief proberen te injecteren.

Kunt u mij iets vertellen over de mensen die betrokken waren bij het schrijven van deze nieuwe versie? Is het allemaal intern geschreven?

Het document is intern geschreven en we kregen feedback. Ik heb een groot deel van het document geschreven en ik heb samengewerkt met (filosoof) Joe Carlsmith, die ook hier is, en andere mensen hebben intern veel bijdragen geleverd. Ik heb met andere teams gewerkt die met externe experts samenwerken. Ik heb veel van de gebruiksscenario’s van het model bekeken. … Het komt voort uit jaren van dat soort input.

Meer AI-dekking van Snel bedrijf:

Wilt u exclusieve rapportage en trendanalyse over technologie, bedrijfsinnovatie, de toekomst van werk en design? Schrijf je in voor Snel bedrijf Premie.



Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in