Home Nieuws Nieuw raamwerk vereenvoudigt het complexe landschap van agentische AI

Nieuw raamwerk vereenvoudigt het complexe landschap van agentische AI

2
0
Nieuw raamwerk vereenvoudigt het complexe landschap van agentische AI

Nu het ecosysteem van agentische tools en raamwerken in omvang explodeert, wordt het navigeren door de vele opties voor het bouwen van AI-systemen steeds moeilijker, waardoor ontwikkelaars verward en verlamd raken bij het kiezen van de juiste tools en modellen voor hun toepassingen.

In een nieuwe studiepresenteren onderzoekers van meerdere instellingen een alomvattend raamwerk om dit complexe web te ontwarren. Ze categoriseren agentische raamwerken op basis van hun aandachtsgebied en afwegingen, en bieden ontwikkelaars een praktische gids bij het kiezen van de juiste tools en strategieën voor hun toepassingen.

Voor bedrijfsteams herformuleert dit agentische AI ​​van een modelselectieprobleem naar een architecturale beslissing over waar het trainingsbudget aan moet worden besteed, hoeveel modulariteit ze moeten behouden en welke afwegingen ze bereid zijn te maken tussen kosten, flexibiliteit en risico.

Aanpassing van agent versus gereedschap

De onderzoekers verdelen het landschap in twee primaire dimensies: aanpassing van agenten En gereedschap aanpassing.

Agentaanpassing omvat het wijzigen van het basismodel dat ten grondslag ligt aan het agentsysteem. Dit wordt gedaan door de interne parameters of het beleid van de agent bij te werken via methoden zoals fijnafstemming of versterkend leren om beter af te stemmen op specifieke taken.

Aanpassing van gereedschappen verschuift daarentegen de focus naar de omgeving rondom de agent. In plaats van het grote, dure basismodel opnieuw te trainen, optimaliseren ontwikkelaars de externe tools zoals zoekretrievers, geheugenmodules of subagenten. Bij deze strategie blijft de hoofdagent ‘bevroren’ (onveranderd). Dankzij deze aanpak kan het systeem evolueren zonder de enorme rekenkosten van het opnieuw trainen van het kernmodel.

Agentische aanpassingsstrategieën (bron: arXiv)

De studie verdeelt deze verder in vier verschillende strategieën:

A1: Gereedschapsuitvoering gesignaleerd: Bij deze strategie leert de agent door te doen. Het wordt geoptimaliseerd met behulp van verifieerbare feedback die rechtstreeks afkomstig is van de uitvoering van een tool, zoals een codecompiler die communiceert met een script of een database die zoekresultaten retourneert. Hierdoor leert de agent de “mechanismen” van het correct gebruiken van een hulpmiddel.

Een goed voorbeeld is DeepSeek-R1waar het model werd getraind door middel van versterkend leren met verifieerbare beloningen om code te genereren die met succes in een sandbox wordt uitgevoerd. Het feedbacksignaal is binair en objectief (is de code uitgevoerd of is deze gecrasht?). Deze methode bouwt sterke competentie op laag niveau op in stabiele, verifieerbare domeinen zoals codering of SQL.

A2: Agentuitgang Gesignaleerd: Hier wordt de agent geoptimaliseerd op basis van de kwaliteit van zijn uiteindelijke antwoord, ongeacht de tussenstappen en het aantal tooloproepen dat hij maakt. Dit leert de agent hoe hij verschillende tools moet orkestreren om tot een juiste conclusie te komen.

Een voorbeeld is Zoeken-R1een agent die meerdere stappen ophaalt om vragen te beantwoorden. Het model ontvangt alleen een beloning als het uiteindelijke antwoord juist is, waardoor het model impliciet wordt gedwongen betere zoek- en redeneerstrategieën te leren om die beloning te maximaliseren. A2 is ideaal voor orkestratie op systeemniveau, waardoor agenten complexe workflows kunnen afhandelen.

T1: Agent-agnostisch: In deze categorie worden tools onafhankelijk getraind op basis van brede gegevens en vervolgens ‘ingeplugd’ in een bevroren agent. Denk aan klassieke dichte retrievers die worden gebruikt in RAG-systemen. Een standaard retrievermodel wordt getraind op generieke zoekgegevens. Een krachtige bevroren LLM kan deze retriever gebruiken om informatie te vinden, ook al is de retriever niet specifiek voor die LLM ontworpen.

T2: Onder toezicht van agent: Deze strategie omvat trainingsinstrumenten die specifiek bedoeld zijn om een ​​bevroren agent te bedienen. Het supervisiesignaal komt van de eigen output van de agent, waardoor een symbiotische relatie ontstaat waarin de tool leert precies te bieden wat de agent nodig heeft.

Bijvoorbeeld de s3logic traint een klein “zoeker”-model om documenten op te halen. Dit kleine model wordt beloond op basis van de vraag of een bevroren ‘redeneerder’ (een grote LLM) de vraag correct kan beantwoorden met behulp van die documenten. De tool past zich effectief aan om de specifieke kennislacunes van de hoofdagent op te vullen.

Complexe AI-systemen kunnen een combinatie van deze aanpassingsparadigma’s gebruiken. Een diepgaand onderzoekssysteem kan bijvoorbeeld gebruik maken van retrievaltools in T1-stijl (vooraf getrainde, compacte retrievers), adaptieve zoekagenten in T2-stijl (getraind via bevroren LLM-feedback) en redeneermiddelen in A1-stijl (verfijnd met uitvoeringsfeedback) in een breder georkestreerd systeem.

De verborgen kosten en afwegingen

Voor zakelijke besluitvormers komt de keuze tussen deze strategieën vaak neer op drie factoren: kosten, generalisatie en modulariteit.

Kosten versus flexibiliteit: Agentaanpassing (A1/A2) biedt maximale flexibiliteit omdat u de hersenen van de agent opnieuw bedraadt. De kosten zijn echter hoog. Search-R1 (een A2-systeem) vereiste bijvoorbeeld training over 170.000 voorbeelden om de zoekmogelijkheden te internaliseren. Dit vereist enorme rekenkracht en gespecialiseerde datasets. Aan de andere kant kunnen de modellen veel efficiënter zijn op het moment van inferentie, omdat ze veel kleiner zijn dan generalistische modellen.

Gereedschapsaanpassing (T1/T2) is daarentegen veel efficiënter. Het s3-systeem (T2) trainde een lichtgewicht zoeker met behulp van slechts 2.400 voorbeelden (ongeveer 70 keer minder gegevens dan Search-R1), terwijl vergelijkbare prestaties werden behaald. Door het ecosysteem te optimaliseren in plaats van de agent, kunnen ondernemingen hoge prestaties bereiken tegen lagere kosten. Dit gaat echter gepaard met een gevolgtrekkingstijd voor overheadkosten, aangezien s3 coördinatie met een groter model vereist.

Generalisatie: Bij de A1- en A2-methoden bestaat het gevaar van ‘overfitting’, waarbij een agent zo gespecialiseerd raakt in één taak dat hij algemene capaciteiten verliest. Uit het onderzoek bleek dat Search-R1 weliswaar uitblonk in zijn trainingstaken, maar worstelde met gespecialiseerde medische QA en een nauwkeurigheid van slechts 71,8% bereikte. Dit is geen probleem als uw agent is ontworpen om een ​​zeer specifieke reeks taken uit te voeren.

Omgekeerd generaliseerde het s3-systeem (T2), dat gebruik maakte van een bevroren middel voor algemeen gebruik, bijgestaan ​​door een getraind hulpmiddel, beter en bereikte een nauwkeurigheid van 76,6% voor dezelfde medische taken. De bevroren agent behield zijn brede wereldkennis, terwijl de tool de specifieke ophaalmechanismen verzorgde. T1/T2-systemen zijn echter afhankelijk van de kennis van de bevroren agent, en als het onderliggende model de specifieke taak niet aankan, zullen ze nutteloos zijn.

Modulariteit: T1/T2-strategieën maken ‘hot-swapping’ mogelijk. U kunt een geheugenmodule of een zoeker upgraden zonder de kernredeneringsmachine aan te raken. Bijvoorbeeld, Aandenken optimaliseert een geheugenmodule om eerdere gevallen op te halen; als de eisen veranderen, update jij de module en niet de planner.

A1- en A2-systemen zijn monolithisch. Het aanleren van een nieuwe vaardigheid (zoals coderen) aan een agent via verfijning kan ‘catastrofaal vergeten’ veroorzaken, waarbij eerder geleerde vaardigheden (zoals wiskunde) achteruitgaan omdat de interne gewichten ervan worden overschreven.

agentische aanpassingsafwegingen

Kosten en afwegingen van verschillende aanpassingsstrategieën voor agenten (bron: arXiv)

Een strategisch raamwerk voor adoptie door ondernemingen

Op basis van het onderzoek moeten ontwikkelaars deze strategieën zien als een progressieve ladder, van modulaire oplossingen met een laag risico naar maatwerk met veel middelen.

Begin met T1 (agent-agnostische tools): Rust een bevroren, krachtig model (zoals Gemini of Claude) uit met kant-en-klare gereedschappen zoals een dichte retriever of een MCP-connector. Dit vereist geen training en is perfect voor prototyping en algemene toepassingen. Het is het laaghangende fruit waarmee je voor de meeste taken heel ver kunt komen.

Ga naar T2 (tools onder toezicht van agenten): Als de agent moeite heeft met het gebruik van generieke tools, train het hoofdmodel dan niet opnieuw. Train in plaats daarvan een kleine, gespecialiseerde subagent (zoals een zoeker of geheugenbeheerder) om gegevens precies zo te filteren en op te maken zoals de hoofdagent dat wil. Dit is zeer data-efficiënt en geschikt voor bedrijfseigen bedrijfsgegevens en -applicaties die een hoog volume en kostengevoelig zijn.

Gebruik A1 (gereedschapsuitvoering gesignaleerd) voor specialisatie: Als de agent fundamenteel faalt bij technische taken (bijvoorbeeld het schrijven van niet-functionele code of verkeerde API-aanroepen), moet u zijn begrip van de ‘mechanica’ van de tool opnieuw vormgeven. A1 is het beste voor het creëren van specialisten in verifieerbare domeinen zoals SQL of Python of uw eigen tools. U kunt bijvoorbeeld een klein model optimaliseren voor uw specifieke toolset en dit vervolgens gebruiken als T1-plug-in voor een generalistisch model.

Reserve A2 (agentuitgang gesignaleerd) als de “nucleaire optie”: Train een monolithische agent alleen end-to-end als je hem nodig hebt om complexe strategie en zelfcorrectie te internaliseren. Dit is arbeidsintensief en zelden nodig voor standaard bedrijfsapplicaties. In werkelijkheid hoeft u zelden betrokken te raken bij het trainen van uw eigen model.

Naarmate het AI-landschap volwassener wordt, verschuift de focus van het bouwen van één gigantisch, perfect model naar het bouwen van een slim ecosysteem van gespecialiseerde tools rond een stabiele kern. Voor de meeste ondernemingen is de meest effectieve weg naar agentische AI ​​niet het bouwen van een groter brein, maar het geven van betere hulpmiddelen.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in