Home Nieuws Meta’s SPICE-framework zorgt ervoor dat AI-systemen zichzelf leren redeneren

Meta’s SPICE-framework zorgt ervoor dat AI-systemen zichzelf leren redeneren

13
0

Onderzoekers bij Meta EERLIJK en de Nationale Universiteit van Singapore hebben een nieuw raamwerk voor versterkend leren ontwikkeld voor zelfverbeterende AI-systemen.

Genaamd Zelf spelen in Corpus-omgevingen (SPICE)zet het raamwerk twee AI-agenten tegenover elkaar, creëert zijn eigen uitdagingen en verbetert geleidelijk zonder menselijk toezicht.

Hoewel dit momenteel een proof-of-concept is, zou dit zelfspeelmechanisme een basis kunnen bieden voor toekomstige AI-systemen die zich dynamisch kunnen aanpassen aan hun omgeving, waardoor ze robuuster worden tegen de onvoorspelbaarheid van toepassingen in de echte wereld.

De uitdaging van zelfverbetering van AI

Het doel van zelfverbetering van AI is om systemen te creëren die dat kunnen vergroten hun capaciteiten door interactie met hun omgeving.

Een veel voorkomende aanpak is versterkend leren met verifieerbare beloningen (RLVR), waarbij modellen worden beloond voor het geven van de juiste antwoorden op problemen. Dit wordt vaak beperkt door de afhankelijkheid van door mensen samengestelde probleemsets en domeinspecifieke beloningstechniek, waardoor het moeilijk is om op te schalen.

Zelfspel, waarbij een model verbetert door met zichzelf te concurreren, is een ander veelbelovend paradigma. Maar bestaande zelfspeelmethoden voor taalmodellen worden vaak beperkt door twee kritische factoren.

  1. Ffeitelijke fouten in gegenereerde vragen en antwoorden verergeren, wat leidt tot een feedbackloop van hallucinaties.

  2. Wanneer de probleemgenerator en de oplosser informatiesymmetrie hebben (dwz dezelfde kennisbasis delen), slagen ze er niet in om echt nieuwe uitdagingen te genereren en vervallen ze in repetitieve patronen.

Zoals de onderzoekers in hun artikel opmerken: “Deze systematische empirische mislukkingen geven aan dat zelfverbetering interactie vereist met een externe bron die diverse, verifieerbare feedback levert, in plaats van pure introspectie met een gesloten lus.”

Hoe SPICE werkt

SPICE is een zelfspeelraamwerk waarbij één enkel model twee verschillende rollen vervult.

  • Een ‘uitdager’ stelt een curriculum met uitdagende problemen samen uit een groot corpus aan documenten.

  • Een “Reasoner” probeert vervolgens deze problemen op te lossen zonder toegang tot de brondocumenten.

Deze opzet doorbreekt de informatiesymmetrie die andere zelfspeelmethoden beperkt, aangezien de Reasoner geen toegang heeft tot de documenten en kennis die de Challenger gebruikt om de problemen te genereren.

Het onderbrengen van de taken in een enorm en divers corpus van documenten voorkomt hallucinaties door vragen en antwoorden te verankeren in inhoud uit de echte wereld. Dit is belangrijk omdat AI-systemen zichzelf op betrouwbare wijze kunnen verbeteren als ze externe aardingsbronnen nodig hebben. Daarom moeten LLM-agenten leren van interacties met mensen en de echte wereld, en niet alleen van hun eigen output, om samengestelde fouten te voorkomen.

De vijandige dynamiek tussen de twee rollen creëert een automatisch curriculum.

De Uitdager wordt beloond voor het genereren van problemen die zowel divers zijn als die zich op de grens van de mogelijkheden van de Redenaar bevinden (niet te gemakkelijk en ook niet onmogelijk).

De Redenaar wordt beloond voor het juiste antwoord. Deze symbiotische interactie dwingt beide agenten om voortdurend nieuwe uitdagingen te ontdekken en te overwinnen.

Omdat het systeem onbewerkte documenten gebruikt in plaats van vooraf gedefinieerde vraag-antwoordparen, kan het verschillende taakformaten genereren, zoals meerkeuzevragen en vragen in vrije vorm.

Dankzij deze flexibiliteit kan SPICE op elk domein worden toegepast, waardoor het knelpunt wordt doorbroken dat eerdere methoden beperkte tot beperkte velden als wiskunde en code. Het vermindert ook de afhankelijkheid van dure, door mensen samengestelde datasets voor gespecialiseerde domeinen zoals juridische of medische analyse.

SPIJS in actie

De onderzoekers evalueerden SPICE op verschillende basismodellen, waaronder Qwen3-4B-basis En OctoThinker-3B-Hybride-Base.

Ze vergeleken de prestaties met basislijnen zoals het basismodel zonder training, een Reasoner-model getraind met een vaste “Strong Challenger” (Qwen3-32B-Instruct) en pure zelfspeelmethoden zoals R-Zero en Absolute Zero. De evaluatie omvatte een breed scala aan wiskundige en algemene redeneringsbenchmarks.

In alle modellen presteerde SPICE consistent beter dan de basislijnen, wat aanzienlijke verbeteringen opleverde in zowel wiskundige als algemene redeneertaken.

De resultaten laten zien dat de redeneervermogens die door corpus-gebaseerd zelfspel zijn ontwikkeld, breed over verschillende modellen heen worden overgedragen, dankzij het diverse externe kenniscorpus dat ze gebruikten.

Een belangrijke bevinding is dat de vijandige dynamiek een effectief automatisch curriculum creëert. Naarmate de training vordert, leert de Challenger steeds moeilijkere problemen te genereren.

In één experiment steeg het slagingspercentage van de Reasoner voor een vaste reeks problemen in de loop van de tijd van 55% naar 85%, wat aantoont dat de capaciteiten ervan zijn verbeterd.

Ondertussen konden latere versies van de Challenger vragen genereren waardoor het slagingspercentage van een Redener in een vroeg stadium daalde van 55% naar 35%, wat bevestigde dat beide rollen met succes samen evolueren.

De onderzoekers concluderen dat deze aanpak een paradigmaverschuiving in zelfverbeterende redeneringsmethoden met zich meebrengt: van “gesloten zelfspel dat vaak stagneert als gevolg van hallucinaties, naar verbetering met een open einde door interactie met de enorme, verifieerbare kennis die is ingebed in de corpora van webdocumenten.”

Momenteel vertegenwoordigt het corpus dat voor SPICE wordt gebruikt de menselijke ervaring vastgelegd in tekst. Het uiteindelijke doel is dat zelfverbeterende systemen vragen genereren op basis van interacties met de werkelijkheid, inclusief de fysieke wereld, het internet en menselijke interacties via meerdere modaliteiten zoals video, audio en sensorgegevens.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in