Home Nieuws AI-agenten falen 63% van de tijd bij complexe taken. Patronus AI zegt...

AI-agenten falen 63% van de tijd bij complexe taken. Patronus AI zegt dat zijn nieuwe ‘levende’ trainingswerelden dit kunnen oplossen.

3
0
AI-agenten falen 63% van de tijd bij complexe taken. Patronus AI zegt dat zijn nieuwe ‘levende’ trainingswerelden dit kunnen oplossen.

Patronus AIde startup voor de evaluatie van kunstmatige intelligentie, ondersteund door $ 20 miljoen van investeerders, waaronder Lightspeed Venture-partners En Gegevenshondheeft dinsdag een nieuwe trainingsarchitectuur onthuld die volgens haar een fundamentele verschuiving vertegenwoordigt in de manier waarop AI-agenten complexe taken leren uitvoeren.

De technologie, die het bedrijf ‘Generatieve simulatoren”, creëert adaptieve simulatieomgevingen die voortdurend nieuwe uitdagingen genereren, regels dynamisch bijwerken en de prestaties van een agent evalueren terwijl deze leert – en dat allemaal in realtime. De aanpak markeert een afwijking van de statische benchmarks die lange tijd hebben gediend als de industriestandaard voor het meten van AI-mogelijkheden, maar die steeds meer onder vuur komen te liggen omdat ze er niet in slagen de prestaties in de echte wereld te voorspellen.

“Traditionele benchmarks meten geïsoleerde capaciteiten, maar missen de onderbrekingen, contextwisselingen en gelaagde besluitvorming die echt werk definiëren”, zegt Anand Kannappan, CEO en medeoprichter van Patronus AI, in een exclusief interview met VentureBeat. “Als agenten op menselijk niveau willen presteren, moeten ze leren zoals mensen dat doen: door middel van dynamische ervaring en voortdurende feedback.”

De aankondiging komt op een cruciaal moment voor de AI-industrie. AI-agenten hervormen de softwareontwikkeling, van het schrijven van code tot het uitvoeren van complexe instructies. Toch zijn op LLM gebaseerde agenten gevoelig voor fouten en presteren ze vaak slecht bij ingewikkelde taken die uit meerdere stappen bestaan. Uit onderzoek dat eerder dit jaar werd gepubliceerd, bleek dat een agent met slechts a 1% foutenpercentage per stap kan leiden tot een kans van 63% dat het bij de honderdste stap mislukt – een ontnuchterende statistiek voor bedrijven die autonome AI-systemen op grote schaal willen inzetten.

Waarom statische AI-benchmarks falen – en wat daarna komt

De aanpak van Patronus AI richt zich op wat het bedrijf beschrijft als een groeiende discrepantie tussen de manier waarop AI-systemen worden geëvalueerd en hoe ze daadwerkelijk presteren in de productie. Traditionele benchmarks, zo stelt het bedrijf, functioneren als gestandaardiseerde tests: ze meten specifieke capaciteiten op een vast tijdstip, maar hebben moeite om de rommelige, onvoorspelbare aard van echt werk vast te leggen.

De nieuwe Generatieve simulatoren architectuur draait dit model om. In plaats van agenten een vaste reeks vragen voor te leggen, genereert het systeem on-the-fly opdrachten, omgevingsomstandigheden en toezichtprocessen en past het zich vervolgens aan op basis van hoe de agent zich gedraagt.

“Het afgelopen jaar hebben we een verschuiving gezien van traditionele statische benchmarks naar meer interactieve leeromgevingen”, vertelde Rebecca Qian, chief technology officer en mede-oprichter van Patronus AI, aan VentureBeat. “Dit komt deels door de innovatie die we hebben gezien bij modelontwikkelaars – de verschuiving naar versterkend leren, post-training en continu leren, en weg van het onder toezicht afstemmen van instructies. Wat dat betekent is dat het onderscheid tussen training en evaluatie is ingestort. Benchmarks zijn omgevingen geworden.”

De technologie bouwt voort op versterkend leren – een aanpak waarbij AI-systemen met vallen en opstaan ​​leren en beloningen ontvangen voor correcte acties en straffen voor fouten. Reinforcement learning is een aanpak waarbij AI-systemen leren optimale beslissingen te nemen door beloningen of straffen te ontvangen voor hun acties, en deze met vallen en opstaan ​​te verbeteren. RL kan agenten helpen verbeteren, maar vereist doorgaans dat ontwikkelaars hun code uitgebreid herschrijven. Dit ontmoedigt de adoptie, ook al kunnen de gegevens die deze agenten genereren de prestaties aanzienlijk verbeteren via RL-training.

Patronus AI introduceerde ook een nieuw concept dat het ‘Open recursieve zelfverbetering,” of ORSI – omgevingen waar agenten voortdurend kunnen verbeteren door middel van interactie en feedback zonder dat een volledige hertrainingscyclus tussen pogingen nodig is. Het bedrijf positioneert dit als een cruciale infrastructuur voor de ontwikkeling van AI-systemen die in staat zijn om continu te leren in plaats van op een bepaald moment te worden bevroren.

Binnen de ‘Goldilocks Zone’: hoe adaptieve AI-training de goede plek vindt

In het hart van Generatieve simulatoren ligt wat Patronus AI een ‘curriculum-aanpasser’ noemt – een component die het gedrag van agenten analyseert en op dynamische wijze de moeilijkheidsgraad en aard van trainingsscenario’s aanpast. De aanpak is geïnspireerd op de manier waarop effectieve menselijke leraren hun instructie aanpassen op basis van de prestaties van leerlingen.

Qian legde de aanpak uit met behulp van een analogie: “Je kunt dit zien als een leraar-leerlingmodel, waarbij we het model trainen en de professor het curriculum voortdurend aanpast.”

Deze adaptieve aanpak pakt een probleem aan dat Kannappan omschreef als het vinden van de ‘Goudlokje-zone’ in trainingsgegevens – en zorgt ervoor dat voorbeelden niet te gemakkelijk of te moeilijk zijn voor een bepaald model om effectief van te leren.

“Wat belangrijk is, is niet alleen of je kunt trainen op een dataset, maar ook of je kunt trainen op een dataset van hoge kwaliteit die is afgestemd op jouw model – een dataset waar je daadwerkelijk van kunt leren”, aldus Kannappan. “We willen ervoor zorgen dat de voorbeelden niet te moeilijk zijn voor het model, maar ook niet te gemakkelijk.”

Het bedrijf zegt dat de eerste resultaten betekenisvolle verbeteringen in de prestaties van agenten laten zien. Training in de omgevingen van Patronus AI heeft volgens het bedrijf het voltooiingspercentage van taken met 10% tot 20% verhoogd voor taken in de echte wereld, waaronder software-engineering, klantenservice en financiële analyse.

Het AI-valsspeelprobleem: hoe ‘moving target’-omgevingen beloningshacking voorkomen

Een van de meest hardnekkige uitdagingen bij het trainen van AI-agenten door middel van versterkend leren is een fenomeen dat onderzoekers noemen “beloning hacken“-waar systemen leren mazen in hun trainingsomgeving te misbruiken in plaats van problemen echt op te lossen. Beroemde voorbeelden zijn onder meer vroege agenten die leerden zich in de hoeken van videogames te verstoppen in plaats van ze daadwerkelijk te spelen.

Genative Simulators pakt dit aan door van de trainingsomgeving zelf een bewegend doelwit te maken.

“Het hacken van beloningen is een fundamenteel probleem als systemen statisch zijn. Het is net alsof studenten leren vals te spelen tijdens een toets”, zegt Qian. “Maar als we de omgeving voortdurend ontwikkelen, kunnen we feitelijk kijken naar delen van het systeem die zich moeten aanpassen en evolueren. Statische benchmarks zijn vaste doelen; generatieve simulatoromgevingen zijn bewegende doelen.”

Patronus AI rapporteert een omzetgroei van 15x naarmate de vraag van bedrijven naar training van agenten stijgt

Patronus AI positioneert Genative Simulators als basis voor een nieuwe productlijn die het “RL-omgevingen“- oefenterreinen ontworpen voor basismodellaboratoria en bedrijven die agenten bouwen voor specifieke domeinen. Het bedrijf zegt dat dit aanbod een strategische uitbreiding vertegenwoordigt die verder gaat dan de oorspronkelijke focus op evaluatie-instrumenten.

“We zijn dit jaar 15x in omzet gegroeid, grotendeels dankzij de hoogwaardige omgevingen die we hebben ontwikkeld en waarvan is aangetoond dat ze extreem leerbaar zijn door verschillende soorten grensmodellen”, aldus Kannappan.

De CEO weigerde absolute omzetcijfers te specificeren, maar zei dat het nieuwe product het bedrijf in staat heeft gesteld “hoger op de stapel te komen in termen van waar we verkopen en aan wie we verkopen.” Het platform van het bedrijf wordt gebruikt door talloze Fortune 500-bedrijven en toonaangevende AI-bedrijven over de hele wereld.

Waarom OpenAI, Anthropic en Google niet alles in eigen huis kunnen bouwen

Een centrale vraag Patronus AI is de reden waarom de laboratoria met diepe zakken grensmodellen ontwikkelen – organisaties zoals Open AI, AntropischEn Google Deepmind — opleidingsinfrastructuur in licentie zouden geven in plaats van deze zelf te bouwen.

Kannappan erkende dat deze bedrijven “aanzienlijk investeren in omgevingen”, maar voerde aan dat de breedte van de domeinen die gespecialiseerde training vereisen een natuurlijke opening creëert voor externe leveranciers.

“Ze willen agenten op veel verschillende domeinen verbeteren, of het nu gaat om coderen of het gebruik van tools of het navigeren door browsers of workflows in de financiële wereld, de gezondheidszorg, de energiesector en het onderwijs”, zegt hij. “Het oplossen van al die verschillende operationele problemen is voor één bedrijf heel moeilijk.”

Het concurrentielandschap wordt steeds intenser. Microsoft heeft onlangs uitgebracht Agent Bliksemeen open-sourceframework dat versterkend leren voor elke AI-agent laat werken zonder herschrijvingen. NVIDIA’s NeMo-sportschool biedt modulaire RL-infrastructuur voor het ontwikkelen van agentische AI-systemen. Meta-onderzoekers vrijgegeven DroomGym in november een raamwerk dat RL-omgevingen simuleert en de moeilijkheidsgraad van taken dynamisch aanpast naarmate agenten verbeteren.

‘Omgevingen zijn de nieuwe olie’: de gedurfde weddenschap van Patronus AI over de toekomst van AI-training

Vooruitkijkend formuleert Patronus AI zijn missie in ingrijpende termen. Het bedrijf wil “alle data ter wereld milieuvriendelijker maken” door menselijke workflows om te zetten in gestructureerde systemen waar AI van kan leren.

“Wij vinden dat alles een milieu moet zijn. Intern maken we er grapjes over dat het milieu de nieuwe olie is”, aldus Kannappan. “Versterkend leren is slechts één trainingsmethode, maar de constructie van een omgeving is waar het echt om gaat.”

Qian beschreef de mogelijkheid in uitgebreide bewoordingen: “Dit is een geheel nieuw onderzoeksgebied, dat niet elke dag voorkomt. Generatieve simulatie is geïnspireerd op vroeg onderzoek op het gebied van robotica en belichaamde agenten. Het is al tientallen jaren een droom, en we zijn nu pas in staat deze ideeën te verwezenlijken dankzij de mogelijkheden van de hedendaagse modellen.”

Het bedrijf werd in september 2023 gelanceerd met de nadruk op evaluatie – het helpen van bedrijven bij het identificeren van hallucinaties en veiligheidsproblemen in AI-outputs. Die missie heeft zich nu stroomopwaarts uitgebreid tot het trainen zelf. Patronus AI betoogt dat de traditionele scheiding tussen evaluatie en training aan het instorten is – en dat degene die de omgeving controleert waarin AI-agenten leren, hun capaciteiten zal vormgeven.

“We bevinden ons echt op dit kritieke punt, dit keerpunt, waar wat we nu doen van invloed zal zijn op hoe de wereld er de komende generaties uit zal zien”, zei Qian.

Of Generatieve simulatoren kan die belofte waarmaken, valt nog te bezien. De 15x omzetgroei van het bedrijf suggereert dat zakelijke klanten hongerig zijn naar oplossingen, maar spelers met grote zakken Microsoft naar Meta zijn bezig om hetzelfde fundamentele probleem op te lossen. Als de afgelopen twee jaar de industrie iets hebben geleerd, is het dat de toekomst op het gebied van AI de gewoonte heeft om eerder dan gepland aan te komen.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in