Een nieuw onderzoek van Google suggereert dat geavanceerde redeneermodellen hoge prestaties leveren door multi-agent-achtige debatten te simuleren waarbij verschillende perspectieven, persoonlijkheidskenmerken en domeinexpertise betrokken zijn.
Hun experimenten tonen aan dat dit interne debat, dat zij “samenleving van het denken”, verbetert de modelprestaties bij complexe redeneer- en planningstaken aanzienlijk. De onderzoekers ontdekten dat toonaangevende redeneermodellen zoals DeepSeek-R1 en QwQ-32B, die zijn getraind via versterkend leren (RL), ontwikkel inherent dit vermogen om deel te nemen aan de samenleving van gedachtengesprekken zonder expliciete instructies.
Deze bevindingen bieden een routekaart voor hoe ontwikkelaars robuustere LLM-applicaties kunnen bouwen en hoe bedrijven superieure modellen kunnen trainen met behulp van hun eigen interne gegevens.
Wat is een gedachtenmaatschappij?
De kern van de gedachtemaatschappij is dat redeneermodellen leren sociale, multi-agent dialogen na te bootsen om hun logica te verfijnen. Deze hypothese is gebaseerd op de cognitieve wetenschap, met name op het idee dat de menselijke rede in de eerste plaats is geëvolueerd als een sociaal proces om problemen op te lossen door middel van argumentatie en betrokkenheid bij verschillende gezichtspunten.
De onderzoekers schrijven dat “cognitieve diversiteit, die voortkomt uit variatie in expertise en persoonlijkheidskenmerken, het oplossen van problemen verbetert, vooral wanneer deze gepaard gaat met authentieke afwijkende meningen.” Bijgevolg suggereren ze dat het integreren van verschillende perspectieven LLM’s in staat stelt robuuste redeneerstrategieën te ontwikkelen. Door gesprekken tussen verschillende interne persona’s te simuleren, kunnen modellen essentiële controles uitvoeren (zoals verificatie en backtracking) waarmee veelvoorkomende valkuilen zoals ongewenste vooroordelen en sycofantie worden vermeden.
In modellen als DeepSeek-R1 manifesteert deze ‘maatschappij’ zich rechtstreeks binnen de gedachteketen. De onderzoekers merken op dat je geen aparte modellen of aanwijzingen nodig hebt om deze interactie te forceren; het debat ontstaat autonoom binnen het redeneringsproces van een enkele modelinstantie.
Voorbeelden van een denkmaatschappij
Het onderzoek biedt tastbare voorbeelden van hoe deze interne wrijving tot betere resultaten leidt. In één experiment met een complex syntheseprobleem in de organische chemie, DeepSeek-R1 simuleerde een debat tussen meerdere verschillende interne perspectieven, waaronder een ‘Planner’ en een ‘Critical Verifier’.
De Planner stelde aanvankelijk een standaardreactiepad voor. De Critical Verifier (die wordt gekenmerkt door een hoge consciëntieusheid en een lage mate van vriendelijkheid) onderbrak hem echter om de veronderstelling aan te vechten en leverde een tegenargument met nieuwe feiten. Door deze tegengestelde controle ontdekte het model de fout, verzoende de tegenstrijdige opvattingen en corrigeerde het synthesepad.
Een soortgelijke dynamiek deed zich voor bij creatieve taken. Toen hem werd gevraagd de zin ‘Ik gooide mijn haat in het brandende vuur’ te herschrijven, simuleerde het model een onderhandeling tussen een ‘Creatieve Ideator’ en een ‘Semantic Fidelity Checker’. Nadat de bedenker een versie had voorgesteld waarin het woord ‘diepgeworteld’ werd gebruikt, antwoordde de controleur: ‘Maar dat voegt ‘diepgeworteld’ toe, wat niet in het origineel stond. We moeten vermijden dat we nieuwe ideeën toevoegen.’ Het model kwam uiteindelijk tot een compromis dat de oorspronkelijke betekenis handhaafde en tegelijkertijd de stijl verbeterde.
Misschien wel de meest opvallende evolutie vond plaats in ‘Countdown Game’, een wiskundepuzzel waarbij het model specifieke getallen moet gebruiken om een doelwaarde te bereiken. Al vroeg in de training probeerde het model het probleem op te lossen met behulp van een monoloogbenadering. Zoals het via RL leerde, splitste het zich spontaan op in twee verschillende persona’s: een ‘methodische probleemoplosser’ die berekeningen uitvoerde en een ‘verkennende denker’ die de voortgang in de gaten hield, die mislukte paden onderbrak met opmerkingen als ‘opnieuw geen geluk… Misschien kunnen we proberen negatieve getallen te gebruiken’, wat de methodische oplosser ertoe aanzette van strategie te wisselen.
Deze bevindingen betwisten de veronderstelling dat langere gedachteketens automatisch resulteren in een hogere nauwkeurigheid. In plaats daarvan zorgen uiteenlopende gedragingen, zoals het door verschillende lenzen bekijken van reacties, het verifiëren van eerdere aannames, het teruggaan en het verkennen van alternatieven, voor verbeteringen in de redenering. De onderzoekers versterkten dit door de activeringsruimte van een model kunstmatig te sturen om gespreksverrassing teweeg te brengen; deze interventie activeerde een breder scala aan persoonlijkheids- en expertisegerelateerde kenmerken, waardoor de nauwkeurigheid bij complexe taken werd verdubbeld.
De implicatie is dat sociaal redeneren autonoom tot stand komt via RL als een functie van de drang van het model om correcte antwoorden te produceren, in plaats van via expliciet menselijk toezicht. In feite presteerden trainingsmodellen voor monologen slechter dan ruwe RL, die op natuurlijke wijze gesprekken met meerdere agenten ontwikkelden. Omgekeerd: presteren begeleide finetuning (SFT) op het gebied van gesprekken tussen meerdere partijen en debat presteerde aanzienlijk beter dan SFT op het gebied van standaard gedachtegangen.
Implicaties voor zakelijke AI
Voor ontwikkelaars en besluitvormers in ondernemingen bieden deze inzichten praktische richtlijnen voor het bouwen van krachtigere AI-toepassingen.
Snelle engineering voor ‘conflict’
Ontwikkelaars kunnen de redenering in modellen voor algemene doeleinden verbeteren door hen expliciet aan te sporen een samenleving van denkstructuren aan te nemen. Het is echter niet voldoende om het model simpelweg te vragen om met zichzelf te chatten.
“Het is niet genoeg om ‘een debat te voeren’, maar om verschillende standpunten en disposities te hebben die het debat onvermijdelijk maken en dat debat de mogelijkheid bieden om alternatieven te onderzoeken en te discrimineren,” vertelde James Evans, co-auteur van het artikel, aan VentureBeat.
In plaats van generieke rollen zouden ontwikkelaars aanwijzingen moeten ontwerpen die tegengestelde disposities toekennen (bijvoorbeeld een risicomijdende compliance officer versus een op groei gerichte productmanager) om het model te dwingen onderscheid te maken tussen alternatieven. Zelfs eenvoudige aanwijzingen die het model ertoe aanzetten om ‘verrassing’ tot uitdrukking te brengen, kunnen deze superieure redeneerpaden in gang zetten.
Ontwerp voor sociale schaalvergroting
Terwijl ontwikkelaars de testtijd-computing opschalen om modellen langer te laten ‘denken’, moeten ze deze tijd structureren als een sociaal proces. Toepassingen moeten een ‘maatschappelijk’ proces faciliteren waarin het model voornaamwoorden als ‘wij’ gebruikt, zichzelf vragen stelt en expliciet over alternatieven debatteert voordat het tot een antwoord komt.
Deze aanpak kan zich ook uitbreiden naar systemen met meerdere agenten, waarbij verschillende persoonlijkheden die aan verschillende agenten zijn toegewezen, een kritisch debat aangaan om tot betere beslissingen te komen.
Stop met het opschonen van je trainingsgegevens
Misschien wel de belangrijkste implicatie ligt in de manier waarop bedrijven hun eigen modellen trainen of verfijnen. Traditioneel scrubben datateams hun datasets om ‘Gouden Antwoorden’ te creëren die perfecte, lineaire paden naar een oplossing bieden. Uit het onderzoek blijkt dat dit een vergissing kan zijn.
Modellen die zijn afgestemd op gespreksgegevens (bijvoorbeeld transcripties van debatten en oplossingen met meerdere agenten) verbeteren het redeneren aanzienlijk sneller dan modellen die zijn getraind op zuivere monologen. Er zit zelfs waarde in debatten die niet tot het juiste antwoord leiden.
“We trainden op conversatiesteigers die tot het verkeerde antwoord leidden, versterkten vervolgens het model en ontdekten dat het net zo goed presteerde als het versterken van het juiste antwoord, wat suggereert dat de gespreksgewoonten van het verkennen van oplossingen het belangrijkst waren voor nieuwe problemen,” zei Evans.
Dit impliceert dat bedrijven moeten stoppen met het weggooien van ‘rommelige’ technische logs of Slack-threads waarin problemen iteratief werden opgelost. De ‘rommeligheid’ is waar het model de gewoonte van verkennen leert.
Het blootleggen van de ‘black box’ voor vertrouwen en auditing
Voor zakelijke gebruiksscenario’s die veel op het spel staan, is het simpelweg krijgen van een antwoord niet voldoende. Evans stelt dat gebruikers de interne afwijkende meningen moeten zien om de output te kunnen vertrouwen, wat duidt op een verschuiving in het ontwerp van de gebruikersinterface.
“We hebben een nieuwe interface nodig die systematisch interne debatten aan ons blootlegt, zodat we ‘deelnemen’ aan het kalibreren van het juiste antwoord,” zei Evans. “Wij doen het beter met debat; AI’s doen het beter met debat; en we doen het beter als we worden blootgesteld aan het debat van AI.”
Het strategische argument voor open gewichten
Deze bevindingen bieden een nieuw argument in het ‘build vs. buy’-debat over open-weight-modellen versus propriëtaire API’s. Veel propriëtaire redeneringsmodellen verbergen hun gedachtegang en behandelen het interne debat als een bedrijfsgeheim of een veiligheidsaansprakelijkheid.
Maar Evans betoogt dat ‘niemand eerder echt een rechtvaardiging heeft aangevoerd om deze denkmaatschappij aan de kaak te stellen’, maar dat de waarde van het controleren van deze interne conflicten onmiskenbaar aan het worden is. Totdat propriëtaire aanbieders volledige transparantie bieden, kunnen bedrijven in sectoren met hoge nalevingswetgeving ontdekken dat open-weight-modellen een duidelijk voordeel bieden: het vermogen om de afwijkende mening te zien, en niet alleen de beslissing.
“Ik geloof dat grote, propriëtaire modellen de informatie zullen gaan aanbieden (en licentiëren) zodra ze zich realiseren dat er waarde in zit”, zei Evans.
Het onderzoek suggereert dat de taak van een AI-architect verschuift van pure modeltraining naar iets dat dichter bij de organisatiepsychologie ligt.
“Ik geloof dat dit een geheel nieuwe grens opent voor het ontwerpen van kleine groepen en organisaties binnen en tussen modellen, waardoor nieuwe prestatieklassen mogelijk worden”, aldus Evans. “Mijn team werkt hieraan, en ik hoop dat anderen dat ook doen.”



