Home Nieuws Google ontdekt dat AI-agenten leren samenwerken wanneer ze worden getraind tegen onvoorspelbare...

Google ontdekt dat AI-agenten leren samenwerken wanneer ze worden getraind tegen onvoorspelbare tegenstanders

Door

12 maart 2026

Het trainen van standaard AI-modellen tegen een diverse groep tegenstanders – in plaats van het bouwen van complexe, hardgecodeerde coördinatieregels – is voldoende om coöperatieve multi-agentsystemen te produceren die zich direct aan elkaar aanpassen. Dat is de bevinding van het Paradigms of Intelligence-team van Google, dat stelt dat de aanpak een oplossing biedt schaalbare en computationeel efficiënte blauwdruk voor bedrijfsimplementaties met meerdere agenten zonder dat gespecialiseerde steigers nodig zijn.

De techniek werkt door een LLM-agent te trainen via gedecentraliseerd versterkingsleren tegen een gemengde groep tegenstanders – sommige actief lerend, andere statisch en op regels gebaseerd. In plaats van hardgecodeerde regels gebruikt de agent in-context leren om elke interactie te lezen en zijn gedrag in realtime aan te passen.

Waarom multi-agentsystemen met elkaar blijven vechten

Het AI-landschap verschuift snel van geïsoleerde systemen naar een vloot van agenten die tegelijkertijd moeten onderhandelen, samenwerken en opereren in gedeelde ruimtes. In systemen met meerdere agenten hangt het succes van een taak af van de interacties en het gedrag van meerdere entiteiten, in tegenstelling tot één enkele agent.

De centrale wrijving in deze multi-agentsystemen is dat hun interacties vaak met concurrerende doelen gepaard gaan. Omdat deze autonome agenten zijn ontworpen om hun eigen specifieke meetgegevens te maximaliseren, is het ongelooflijk moeilijk om ervoor te zorgen dat ze elkaar niet actief ondermijnen in deze scenario’s met gemengde motieven.

Multi-agent Reinforcement Learning (MARL) probeert dit probleem aan te pakken door meerdere AI-agenten te trainen die tegelijkertijd in dezelfde gedeelde omgeving opereren, communiceren en leren. In echte bedrijfsarchitecturen heeft één enkel gecentraliseerd systeem echter zelden inzicht in of controle over elk bewegend onderdeel. Ontwikkelaars moeten vertrouwen op gedecentraliseerde MARL, waarbij individuele agenten moeten uitzoeken hoe ze met anderen kunnen communiceren, terwijl ze alleen toegang hebben tot hun eigen beperkte, lokale gegevens en observaties.

Leren door meerdere agenten te versterken

Een van de grootste problemen met gedecentraliseerde MARL is dat de agenten vaak in suboptimale toestanden blijven steken terwijl ze proberen hun eigen specifieke beloningen te maximaliseren. De onderzoekers noemen het ‘wederzijdse afvalligheid’, gebaseerd op de Het gevangenendilemma puzzel gebruikt in de speltheorie. Denk bijvoorbeeld aan twee geautomatiseerde prijsalgoritmen die verwikkeld zijn in een destructieve race to the bottom. Omdat elke agent uitsluitend optimaliseert voor zijn eigen zelfzuchtige beloning, komen ze in een patstelling terecht waarin de bredere onderneming verliest.

Een ander probleem is dat traditionele trainingsframeworks zijn ontworpen voor stationaire omgevingen, wat betekent dat de spelregels en het gedrag van de omgeving relatief vast liggen. In een systeem met meerdere agenten is de omgeving, vanuit het perspectief van elke afzonderlijke agent, fundamenteel onvoorspelbaar en verandert voortdurend, omdat de andere agenten tegelijkertijd hun eigen beleid leren en aanpassen.

Hoewel bedrijfsontwikkelaars momenteel afhankelijk zijn van raamwerken die gebruikmaken van rigide state-machines, stuiten deze methoden bij complexe implementaties vaak op een schaalbaarheidsmuur.

“De belangrijkste beperking van hardgecodeerde orkestratie is het gebrek aan flexibiliteit”, vertelde Alexander Meulemans, co-auteur van het artikel en Senior Research Scientist bij Google’s Paradigms of Intelligence-team, aan VentureBeat. “Hoewel rigide staatsmachines adequaat functioneren in beperkte domeinen, kunnen ze er niet in slagen op te schalen naarmate de reikwijdte en complexiteit van de inzet van agenten groter wordt. Onze in-contextbenadering vormt een aanvulling op deze bestaande raamwerken door adaptief sociaal gedrag te bevorderen dat diep ingebed is tijdens de post-trainingsfase.”

Wat dit betekent voor ontwikkelaars die LangGraph, CrewAI of AutoGen gebruiken

Frameworks zoals LangGraph vereisen dat ontwikkelaars agenten, statusovergangen en routeringslogica expliciet als een grafiek definiëren. LangChain beschrijft deze aanpak als gelijkwaardig aan een toestandsmachinewaarbij agentknooppunten en hun verbindingen toestanden en overgangsmatrices vertegenwoordigen. De aanpak van Google keert dat model om: in plaats van hard te coderen hoe agenten moeten coördineren, produceert het coöperatief gedrag door middel van training, waarbij de agenten de coördinatieregels uit de context moeten afleiden.

De onderzoekers bewijzen dat ontwikkelaars geavanceerde, coöperatieve multi-agentsystemen kunnen realiseren met behulp van exact dezelfde standaard sequentiemodellering en versterkende leertechnieken die de huidige basismodellen al aandrijven.

Het team valideerde het concept met behulp van een nieuwe methode genaamd Predictive Policy Improvement (PPI), hoewel Meulemans opmerkt dat het onderliggende principe model-agnostisch is.

“In plaats van een klein aantal agenten met vaste rollen op te leiden, zouden teams een trainingsroutine met een gemengde pool moeten implementeren”, aldus Meulemans. “Ontwikkelaars kunnen deze dynamiek reproduceren met behulp van standaard, kant-en-klare leeralgoritmen voor versterking (zoals GRPO).”

Door agenten in contact te brengen met diverse medespelers (dat wil zeggen, variërend in systeemprompts, verfijnde parameters of onderliggend beleid) creëren teams een robuuste leeromgeving. Dit levert strategieën op die veerkrachtig zijn bij de interactie met nieuwe partners en zorgt ervoor dat leren door meerdere agenten leidt tot stabiel, langdurig coöperatief gedrag.

Hoe de onderzoekers bewezen dat het werkt

Om agenten te bouwen die met succes de strategie van een medespeler kunnen afleiden, creëerden de onderzoekers een gedecentraliseerde trainingsopstelling waarin de AI het opneemt tegen een zeer diverse, gemengde pool van tegenstanders, bestaande uit actief lerende modellen en statische, op regels gebaseerde programma’s. Deze gedwongen diversiteit vereist dat de agent op dynamische wijze uitzoekt met wie hij communiceert en zijn gedrag direct aanpast, volledig vanuit de context van de interactie.

gevarieerde leeromgeving met meerdere agenten — Diverse multi-agent training

Bij bedrijfsontwikkelaars roept de term ‘in-context learning’ vaak zorgen op over de opgeblazenheid van contextvensters, API-kosten en latentie, vooral wanneer vensters al vol zitten met RAG-gegevens (Retrieval-Augmented Generation) en systeemprompts. Meulemans verduidelijkt echter dat deze techniek zich richt op efficiëntie en niet op het aantal tokens. “Onze methode richt zich op het optimaliseren van de manier waarop agenten hun beschikbare context gebruiken tijdens de post-training, in plaats van strikt grotere contextvensters te eisen,” zei hij. Door agenten te trainen in het ontleden van hun interactiegeschiedenis om strategieën af te leiden, gebruiken ze de toegewezen context adaptiever, zonder dat daarvoor langere contextvensters nodig zijn dan bij bestaande applicaties.

Door het Iterated Prisoner’s Dilemma (IPD) als maatstaf te gebruiken, bereikten de onderzoekers een robuuste, stabiele samenwerking zonder de traditionele krukken. Er zijn geen kunstmatige scheidingen tussen meta- en innerlijke leerlingen, en het is niet nodig om aannames over de werking van het algoritme van de tegenstander hard te coderen. Omdat de agent zich in realtime aanpast en tegelijkertijd de gewichten van het kernmodel in de loop van de tijd bij vele interacties bijwerkt, vervult hij feitelijk beide rollen tegelijkertijd. In feite presteerden de agenten beter als ze geen informatie kregen over hun tegenstanders en werden ze gedwongen zich met vallen en opstaan aan hun gedrag aan te passen.

Training voor meerdere agenten werkt het beste als je een groep verschillende agenten krijgt en de kans krijgt om zelf de regels te verkennen (bron: arXiv)

De rol van de ontwikkelaar verschuift van regelschrijver naar architect

De onderzoekers zeggen dat hun werk de kloof overbrugt tussen multi-agent versterkingsleren en de trainingsparadigma’s van moderne basismodellen. “Aangezien basismodellen van nature in-context leren vertonen en zijn getraind in diverse taken en gedragingen, suggereren onze bevindingen een schaalbaar en computationeel efficiënt pad voor de opkomst van coöperatief sociaal gedrag met behulp van standaard gedecentraliseerde leertechnieken”, schrijven ze.

Nu het vertrouwen op gedragsaanpassing in de context de standaard wordt boven het hardcoderen van strikte regels, zal het menselijke element van AI-engineering fundamenteel veranderen. “De rol van de ontwikkelaar van AI-applicaties kan evolueren van het ontwerpen en beheren van individuele interactieregels naar het ontwerpen en bieden van architectonisch toezicht op hoog niveau voor trainingsomgevingen”, aldus Meulemans. Deze transitie verheft ontwikkelaars van het schrijven van beperkte spelregels naar het op zich nemen van een strategische rol, waarbij de brede parameters worden gedefinieerd die ervoor zorgen dat agenten leren behulpzaam, veilig en samenwerkend te zijn in elke situatie.

Nieuwsbron

Google ontdekt dat AI-agenten leren samenwerken wanneer ze worden getraind tegen onvoorspelbare tegenstanders

Waarom multi-agentsystemen met elkaar blijven vechten

Wat dit betekent voor ontwikkelaars die LangGraph, CrewAI of AutoGen gebruiken

Hoe de onderzoekers bewezen dat het werkt

De rol van de ontwikkelaar verschuift van regelschrijver naar architect

LAAT EEN REACTIE ACHTER Annuleer reactie

EDITOR PICKS

NYT Connections van vandaag: tips voor de sporteditie, antwoorden voor 16 november #419

Deze makelaars in onroerend goed in New York worden geconfronteerd met een proces tegen...

Waarom schakelen niet ingaat tegen Tim Allens karakter Matts politiek

De moeder van Alexey Navalny hoopt op gerechtigheid nu Rusland de beoordeling van pijlkikkervergiftiging...