Home Nieuws Het nieuwe agentframework sluit aan bij door mensen ontworpen AI-systemen – en...

Het nieuwe agentframework sluit aan bij door mensen ontworpen AI-systemen – en voegt geen gevolgtrekkingskosten toe aan de implementatie

3
0
Het nieuwe agentframework sluit aan bij door mensen ontworpen AI-systemen – en voegt geen gevolgtrekkingskosten toe aan de implementatie

Agents die bovenop de huidige modellen zijn gebouwd, gaan vaak kapot met eenvoudige wijzigingen (een nieuwe bibliotheek, een aanpassing van de workflow) en hebben een menselijke ingenieur nodig om deze te repareren. Dat is een van de meest hardnekkige uitdagingen bij het inzetten van AI voor ondernemingen: het creëren van agenten die zich kunnen aanpassen aan dynamische omgevingen zonder dat ze voortdurend de hand moeten vasthouden. Hoewel de huidige modellen krachtig zijn, zijn ze grotendeels statisch.

Om dit aan te pakken hebben onderzoekers van de Universiteit van Californië, Santa Barbara zich ontwikkeld Groepsevoluerende agenten (GEA), een nieuw raamwerk dat groepen AI-agenten in staat stelt samen te evolueren, ervaringen te delen en hun innovaties te hergebruiken om in de loop van de tijd autonoom te verbeteren.

Bij experimenten met complexe codeer- en software-engineeringtaken presteerde GEA aanzienlijk beter dan de bestaande zelfverbeterende raamwerken. Misschien wel het meest opvallend voor besluitvormers in ondernemingen, was dat het systeem autonoom agenten ontwikkelde die de prestaties van raamwerken die nauwgezet door menselijke experts waren ontworpen, evenaren of zelfs overtroffen.

De beperkingen van de ‘lone wolf’-evolutie

De meeste bestaande agentische AI-systemen vertrouw op vaste architecturen ontworpen door ingenieurs. Deze systemen hebben vaak moeite om de capaciteitsgrenzen te overschrijden die hun oorspronkelijke ontwerpen oplegden.

Om dit op te lossen hebben onderzoekers lang gezocht naar zelfontwikkelende agenten die autonoom hun eigen code en structuur kunnen aanpassen om hun aanvankelijke beperkingen te overwinnen. Deze mogelijkheid is essentieel voor het omgaan met open omgevingen waarin de agent voortdurend nieuwe oplossingen moet verkennen.

De huidige benaderingen van zelfontwikkeling vertonen echter een grote structurele tekortkoming. Zoals de onderzoekers in hun artikel opmerken, zijn de meeste systemen geïnspireerd door biologische evolutie en ontworpen rond ‘individueel-centrische’ processen. Deze methoden maken doorgaans gebruik van een boomgestructureerde aanpak: er wordt één enkele ‘ouder’-agent geselecteerd om nakomelingen te produceren, waardoor verschillende evolutionaire takken ontstaan ​​die strikt van elkaar geïsoleerd blijven.

Klassieke zelfontwikkelende agentstructuur (bron: arXiv)

Deze isolatie creëert een silo-effect. Een agent in de ene vertakking heeft geen toegang tot de gegevens, tools of workflows die door een agent in een parallelle vertakking zijn ontdekt. Als een specifieke lijn er niet in slaagt om voor de volgende generatie te worden geselecteerd, sterft elke waardevolle ontdekking die door die agent wordt gedaan, zoals een nieuw foutopsporingshulpmiddel of een efficiëntere testworkflow, daarmee uit.

In hun artikel betwijfelen de onderzoekers de noodzaak van het vasthouden aan deze biologische metafoor. “AI-agentia zijn geen biologische individuen”, beweren ze. “Waarom zou hun evolutie beperkt blijven door biologische paradigma’s?”

De collectieve intelligentie van groepsevoluerende agenten

GEA verschuift het paradigma door een groep actoren, in plaats van een individu, te behandelen als de fundamentele eenheid van de evolutie.

Het proces begint met het selecteren van een groep bovenliggende agenten uit een bestaand archief. Om een ​​gezonde mix van stabiliteit en innovatie te garanderen, selecteert GEA deze agenten op basis van een gecombineerde score van prestaties (competentie in het oplossen van taken) en nieuwheid (hoe verschillend hun capaciteiten zijn van die van anderen).

groepsevoluerend middel

Groepsevoluerende agent (GEA) (bron: arXiv)

In tegenstelling tot traditionele systemen waarbij een agent alleen leert van zijn directe ouder, creëert GEA een gedeelde verzameling collectieve ervaringen. Deze pool bevat de evolutionaire sporen van alle leden van de oudergroep, inclusief codewijzigingen, succesvolle oplossingen voor taken en geschiedenis van het aanroepen van gereedschappen. Elke agent in de groep krijgt toegang tot deze collectieve geschiedenis, waardoor ze kunnen leren van de doorbraken en fouten van hun collega’s.

Een ‘Reflectiemodule’, aangedreven door een groot taalmodel, analyseert deze collectieve geschiedenis om groepsbrede patronen te identificeren. Als de ene agent bijvoorbeeld een goed presterende foutopsporingstool ontdekt terwijl een andere een testworkflow perfectioneert, haalt het systeem beide inzichten eruit. Op basis van deze analyse genereert het systeem ‘evolutierichtlijnen’ op hoog niveau die de creatie van de kindgroep begeleiden. Dit zorgt ervoor dat de volgende generatie de gecombineerde krachten van al hun ouders bezit, in plaats van alleen de eigenschappen van één enkele lijn.

GEA

Hoe GEA evolutiekenmerken kiest en deelt (bron: arXiv)

Deze bijenkorf-mind-aanpak werkt echter het beste als succes objectief is, zoals bij codeertaken. “Voor minder deterministische domeinen (bijvoorbeeld creatieve generatie) zijn evaluatiesignalen zwakker”, vertelden Zhaotian Weng en Xin Eric Wang, co-auteurs van het artikel, in schriftelijke commentaren aan VentureBeat. “Het blindelings delen van resultaten en ervaringen kan ervaringen van lage kwaliteit introduceren die als ruis fungeren. Dit suggereert de behoefte aan sterkere mechanismen voor het filteren van ervaringen” voor subjectieve taken.

GEA in actie

De onderzoekers testten GEA aan de hand van de huidige state-of-the-art zelfontwikkelende basislijn, de Darwin Godel-machine (DGM), op twee strenge benchmarks. De resultaten toonden een enorme sprong in capaciteit aan zonder het aantal gebruikte middelen te vergroten.

Deze gezamenlijke aanpak maakt het systeem ook robuuster tegen storingen. In hun experimenten hebben de onderzoekers agenten opzettelijk kapot gemaakt door handmatig bugs in hun implementaties te injecteren. GEA kon deze kritieke bugs in gemiddeld 1,4 iteraties repareren, terwijl de basislijn vijf iteraties in beslag nam. Het systeem maakt effectief gebruik van de ‘gezonde’ leden van de groep om de gecompromitteerde leden te diagnosticeren en te patchen.

Op SWE-bench Verified, een benchmark bestaande uit echte GitHub-problemen inclusief bugs en functieverzoeken, behaalde GEA een succespercentage van 71,0%, vergeleken met de 56,7% in de basislijn. Dit vertaalt zich in een aanzienlijke toename van de autonome engineeringdoorvoer, wat betekent dat de agenten veel beter in staat zijn om het echte softwareonderhoud uit te voeren. Op dezelfde manier behaalde GEA op Polyglot, dat het genereren van code in diverse programmeertalen test, 88,3% tegenover de 68,3% in de uitgangssituatie, wat wijst op een hoog aanpassingsvermogen aan verschillende tech-stacks.

GEA versus DGM

GEA versus Darwin-Godel Machine (DGM) (bron: arXiv)

Voor R&D-teams van ondernemingen is de meest kritische bevinding dat GEA AI in staat stelt zichzelf net zo effectief te ontwerpen als menselijke ingenieurs. Op de SWE-bench komt het succespercentage van GEA van 71,0% effectief overeen met de prestaties van OpenHandshet beste door mensen ontworpen open-sourceframework. Op Polyglot presteerde GEA aanzienlijk beter dan Aider, een populaire codeerassistent, die 52,0% behaalde. Dit suggereert dat organisaties uiteindelijk minder afhankelijk zullen zijn van grote teams van snelle ingenieurs om agentframeworks aan te passen, omdat de agenten deze optimalisaties autonoom kunnen meta-leren.

Deze efficiëntie strekt zich uit tot kostenbeheersing. “GEA is expliciet een systeem in twee fasen: (1) de evolutie van agenten, en vervolgens (2) gevolgtrekking/inzet”, aldus de onderzoekers. “Na de evolutie implementeer je één enkele geëvolueerde agent… dus de kosten voor bedrijfsinferentie blijven in wezen ongewijzigd ten opzichte van een standaard opstelling met één agent.”

Het succes van GEA komt grotendeels voort uit haar vermogen om verbeteringen te consolideren. De onderzoekers volgden specifieke innovaties die door de agenten tijdens het evolutionaire proces waren uitgevonden. In de basisbenadering verschenen waardevolle instrumenten vaak in geïsoleerde takken, maar slaagden zij er niet in zich te verspreiden omdat die specifieke lijnen eindigden. Bij GEA zorgde het gedeelde ervaringsmodel ervoor dat deze tools werden overgenomen door de best presterende agenten. De beste GEA-agent integreerde eigenschappen van 17 unieke voorouders (die 28% van de bevolking vertegenwoordigen), terwijl de beste basisagent eigenschappen van slechts 9 integreerde. In feite creëert GEA een “superwerknemer” die over de gecombineerde best practices van de hele groep beschikt.

“Een door GEA geïnspireerde workflow in de productie zou agenten in staat stellen eerst een paar onafhankelijke oplossingen uit te proberen wanneer er fouten optreden”, legden de onderzoekers uit over dit zelfherstellende vermogen. “Een reflectieagent (meestal aangedreven door een sterk basismodel) kan vervolgens de resultaten samenvatten… en een uitgebreidere systeemupdate begeleiden.”

Bovendien zijn de door GEA ontdekte verbeteringen niet gebonden aan een specifiek onderliggend model. Agenten die zijn geëvolueerd met behulp van één model, zoals Claude, behielden hun prestatieverbeteringen, zelfs als de onderliggende engine werd gewisseld naar een andere modelfamilie, zoals GPT-5.1 of GPT-o3-mini. Deze overdraagbaarheid biedt bedrijven de flexibiliteit om van modelaanbieder te wisselen zonder de aangepaste architectonische optimalisaties te verliezen die hun agenten hebben geleerd.

Voor sectoren met strikte compliance-eisen kan het idee van zelfmodificerende code riskant klinken. Om dit aan te pakken, zeiden de auteurs: “We verwachten dat bedrijfsimplementaties niet-evolueerbare vangrails omvatten, zoals uitvoering in een sandbox, beleidsbeperkingen en verificatielagen.”

Hoewel de onderzoekers van plan zijn de officiële code binnenkort vrij te geven, kunnen ontwikkelaars al beginnen met het conceptueel implementeren van de GEA-architectuur bovenop bestaande agentframeworks. Het systeem vereist drie belangrijke toevoegingen aan een standaard agentenstack: een ‘ervaringsarchief’ om evolutionaire sporen op te slaan, een ‘reflectiemodule’ om groepspatronen te analyseren, en een ‘updatemodule’ waarmee de agent zijn eigen code kan aanpassen op basis van die inzichten.

Vooruitkijkend zou het raamwerk de ontwikkeling van geavanceerde agenten kunnen democratiseren. “Eén veelbelovende richting zijn hybride evolutiepijplijnen”, aldus de onderzoekers, “waar kleinere modellen vroeg onderzoek doen om diverse ervaringen te verzamelen, en sterkere modellen later de evolutie begeleiden met behulp van die ervaringen.”

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in