Home Nieuws Het enige dat tussen de mensheid en de AI-apocalyps staat, is …...

Het enige dat tussen de mensheid en de AI-apocalyps staat, is … Claude?

1
0
Het enige dat tussen de mensheid en de AI-apocalyps staat, is … Claude?

Anthropic zit gevangen in een paradox: onder de top AI-bedrijven zijn het de meest geobsedeerd met veiligheid en loopt voorop bij het onderzoek naar hoe modellen fout kunnen gaan. Maar ook al is de veiligheidsproblemen Het heeft vastgesteld dat de problemen nog lang niet zijn opgelost, maar Anthropic dringt net zo agressief als zijn rivalen door naar het volgende, potentieel gevaarlijkere niveau van kunstmatige intelligentie. Haar kernmissie is uitzoeken hoe deze tegenstrijdigheid kan worden opgelost.

Vorige maand bracht Anthropic twee documenten uit die zowel de risico’s erkenden die verbonden zijn aan het pad waarop het bedrijf zich bevindt, als een hint gaven over een route die het zou kunnen nemen om aan de paradox te ontsnappen. “De adolescentie van technologie“, een langdradige blogpost van CEO Dario Amodei, gaat nominaal over het “confronteren en overwinnen van de risico’s van krachtige AI”, maar besteedt meer tijd aan de eerste dan aan de laatste. Amodei beschrijft de uitdaging tactvol als “afschrikwekkend”, maar zijn weergave van de risico’s van AI – veel erger gemaakt, merkt hij op, door de grote waarschijnlijkheid dat de technologie door autoritairen zal worden misbruikt – vormt een contrast met zijn meer optimistische eerdere proto-utopische essay “Machines van liefdevolle genade.”

In dat bericht werd gesproken over een natie van genieën in een datacenter; het recente bericht roept ‘zwarte zeeën van oneindigheid’ op. Dante oproepen! Toch slaat Amodei, na meer dan twintigduizend overwegend sombere woorden, uiteindelijk een toon van optimisme aan, door te zeggen dat zelfs in de donkerste omstandigheden de mensheid altijd de overhand heeft gehad.

Het tweede document dat Anthropic in januari publiceerde: “Claude’s grondwet“, concentreert zich op hoe deze truc kan worden volbracht. De tekst is technisch gericht op een publiek van één persoon: Claude zelf (evenals toekomstige versies van de chatbot). Het is een aangrijpend document dat de visie van Anthropic onthult over hoe Claude, en misschien zijn AI-collega’s, de uitdagingen van de wereld zullen aangaan. Kort gezegd: Anthropic is van plan op Claude zelf te vertrouwen om de Gordiaanse zakelijke knoop te ontwarren.

De marktdifferentiator van Anthropic wordt al lang een technologie genoemd Constitutionele AI. Dit is een proces waarbij de modellen zich houden aan een reeks principes die de waarden ervan afstemmen op een gezonde menselijke ethiek. De oorspronkelijke grondwet van Claude bevatte een aantal documenten die bedoeld waren om deze waarden te belichamen – zaken als Sparrow (een reeks antiracistische en anti-geweldverklaringen opgesteld door DeepMind), de Universele Verklaring van de Rechten van de Mens en de servicevoorwaarden van Apple (!). De bijgewerkte versie van 2026 is anders: het is meer een lange prompt waarin een ethisch raamwerk wordt geschetst dat Claude zal volgen en op eigen kracht de beste weg naar gerechtigheid zal ontdekken.

Amanda Askell, promovendus op het gebied van filosofie en hoofdschrijver van deze herziening, legt uit dat de aanpak van Anthropic robuuster is dan simpelweg tegen Claude zeggen dat hij een reeks vastgestelde regels moet volgen. “Als mensen regels volgen zonder enige andere reden dan dat ze bestaan, is het vaak erger dan wanneer je begrijpt waarom de regel van kracht is”, legt Askell uit. De grondwet zegt dat Claude een “onafhankelijk oordeel” moet vellen wanneer hij wordt geconfronteerd met situaties waarin zijn mandaten van behulpzaamheid, veiligheid en eerlijkheid in evenwicht moeten worden gebracht.

De grondwet zegt het als volgt: “Hoewel we willen dat Claude redelijk en rigoureus is als hij expliciet over ethiek nadenkt, willen we ook dat Claude intuïtief gevoelig is voor een breed scala aan overwegingen en in staat is om deze overwegingen snel en verstandig af te wegen in de besluitvorming.” Intuïtief is hier een veelzeggende woordkeuze; de ​​veronderstelling lijkt te zijn dat er meer onder de motorkap van Claude schuilgaat dan alleen een algoritme dat het volgende woord kiest. De ‘Claude-stitutie’, zoals je het zou kunnen noemen, drukt ook de hoop uit dat de chatbot ‘in toenemende mate kan putten uit zijn eigen wijsheid en begrip’.

Wijsheid? Zeker, veel mensen laten zich adviseren door grote taalmodellen, maar het is iets anders om te beweren dat die algoritmische apparaten daadwerkelijk de zwaartekracht bezitten die met zo’n term gepaard gaat. Askell deinst niet terug als ik dit roep. ‘Ik denk zeker dat Claude tot een bepaald soort wijsheid in staat is’, vertelt ze me.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in