Home Nieuws Uit een OpenAI-experiment blijkt dat schaarse modellen AI-bouwers de tools kunnen geven...

Uit een OpenAI-experiment blijkt dat schaarse modellen AI-bouwers de tools kunnen geven om neurale netwerken te debuggen

9
0
Uit een OpenAI-experiment blijkt dat schaarse modellen AI-bouwers de tools kunnen geven om neurale netwerken te debuggen

Open AI onderzoekers zijn experimenteren met een nieuwe aanpak aan het ontwerpen van neurale netwerken, met als doel AI-modellen gemakkelijker te begrijpen, te debuggen en te besturen. Schaarse modellen kunnen bedrijven een beter inzicht geven in de manier waarop deze modellen beslissingen nemen.

Begrijpen hoe modellen ervoor kiezen om te reageren, een grote verkoopargument van redeneermodellen voor ondernemingen kan een niveau van vertrouwen bieden voor organisaties wanneer zij zich tot AI-modellen wenden voor inzichten.

De methode riep wetenschappers en onderzoekers van OpenAI op om modellen te bekijken en te evalueren, niet door de prestaties na de training te analyseren, maar door interpreteerbaarheid of begrip toe te voegen via schaarse circuits.

OpenAI merkt op dat een groot deel van de ondoorzichtigheid van AI-modellen voortkomt uit de manier waarop de meeste modellen zijn ontworpen, dus om een ​​beter inzicht te krijgen in het modelgedrag moeten ze oplossingen bedenken.

“Neurale netwerken vormen de drijvende kracht achter de meest capabele AI-systemen van vandaag, maar ze blijven moeilijk te begrijpen”, schreef OpenAI in een blogpost. “We schrijven deze modellen niet met expliciete stapsgewijze instructies. In plaats daarvan leren ze door miljarden interne verbindingen of gewichten aan te passen totdat ze een taak onder de knie hebben. We ontwerpen de trainingsregels, maar niet het specifieke gedrag dat naar voren komt, en het resultaat is een dicht web van verbindingen dat geen mens gemakkelijk kan ontcijferen.”

Om de interpreteerbaarheid van de mix te vergroten, onderzocht OpenAI een architectuur die ontwarrende neurale netwerken traint, waardoor ze eenvoudiger te begrijpen zijn. Het team trainde taalmodellen met een architectuur die vergelijkbaar is met bestaande modellen, zoals GPT-2, met behulp van hetzelfde trainingsschema.

Het resultaat: een betere interpreteerbaarheid.

De weg naar interpreteerbaarheid

Begrijpen hoe modellen werken en ons inzicht geven in hoe ze hun beslissingen nemen, is belangrijk omdat deze een impact hebben op de echte wereld, zegt OpenAI.

Het bedrijf definieert interpreteerbaarheid als “methoden die ons helpen begrijpen waarom een ​​model een bepaalde output produceerde.” Er zijn verschillende manieren om interpreteerbaarheid te bereiken: interpreteerbaarheid van de gedachteketen, waar redeneermodellen vaak gebruik van maken, en mechanistische interpreteerbaarheid, waarbij de wiskundige structuur van een model wordt omgekeerd.

OpenAI concentreerde zich op het verbeteren van de mechanistische interpreteerbaarheid, wat volgens het bedrijf “tot nu toe minder direct nuttig is geweest, maar in principe een completere verklaring zou kunnen bieden voor het gedrag van het model.”

“Door modelgedrag op het meest gedetailleerde niveau te proberen te verklaren, kan de mechanistische interpreteerbaarheid minder aannames doen en ons meer vertrouwen geven. Maar het pad van details op laag niveau naar verklaringen van complex gedrag is veel langer en moeilijker”, aldus OpenAI.

Een betere interpreteerbaarheid zorgt voor beter toezicht en geeft vroegtijdige waarschuwingssignalen als het gedrag van het model niet langer aansluit bij het beleid.

OpenAI merkte op dat het verbeteren van de mechanistische interpreteerbaarheid “een zeer ambitieuze gok is”, maar onderzoek naar schaarse netwerken heeft dit verbeterd.

Hoe een model te ontwarren

Om de warboel aan verbindingen die een model maakt te ontwarren, heeft OpenAI eerst de meeste van deze verbindingen doorgesneden. Omdat transformatormodellen zoals GPT-2 duizenden aansluitingen hebben, moest het team deze circuits op nul zetten. Ze praten allemaal alleen met een select nummer, zodat de verbindingen overzichtelijker worden.

Vervolgens voerde het team ‘circuit tracing’ uit op taken om groepen interpreteerbare circuits te creëren. De laatste taak betrof het snoeien van het model “om het kleinste circuit te verkrijgen dat een doelverlies op de doelverdeling behaalt,” volgens Open AI. Het beoogde een verlies van 0,15 om de exacte knooppunten en gewichten te isoleren die verantwoordelijk zijn voor gedrag.

“We laten zien dat het snoeien van onze gewichtsarme modellen ruwweg 16 keer kleinere circuits oplevert voor onze taken dan het snoeien van dichte modellen met vergelijkbaar voortrainingsverlies. We zijn ook in staat om willekeurig nauwkeurige circuits te construeren ten koste van meer randen. Dit toont aan dat circuits voor eenvoudig gedrag aanzienlijk meer ontward en lokaliseerbaar zijn in gewichtsarme modellen dan dichte modellen”, aldus het rapport.

Kleine modellen worden gemakkelijker te trainen

Hoewel OpenAI erin is geslaagd spaarzame modellen te maken die gemakkelijker te begrijpen zijn, blijven deze aanzienlijk kleiner dan de meeste basismodellen die door ondernemingen worden gebruikt. Ondernemingen steeds vaker kleine modellen gebruikenmaar grensmodellen, zoals zijn vlaggenschip GPT-5.1zullen op termijn nog steeds profiteren van een betere interpreteerbaarheid.

Andere modelontwikkelaars willen ook begrijpen hoe hun AI-modellen denken. Antropischdat is geweest onderzoek naar interpreteerbaarheid al een tijdje, onlangs onthuld dat het de hersenen van Claude had “gehackt”. – en Claude merkte het op. Meta werkt ook om uit te zoeken hoe redeneermodellen werken hun beslissingen nemen.

Naarmate meer bedrijven zich tot AI-modellen wenden om consequente beslissingen te nemen voor hun bedrijf, en uiteindelijk voor klanten, zou onderzoek naar inzicht in hoe modellen denken de duidelijkheid kunnen bieden die veel organisaties nodig hebben om meer op modellen te vertrouwen.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in