Home Nieuws Waarom de grote overwinning van Sakana AI van groot belang is voor...

Waarom de grote overwinning van Sakana AI van groot belang is voor de toekomst van zakelijke agenten

2
0
Waarom de grote overwinning van Sakana AI van groot belang is voor de toekomst van zakelijke agenten

Een indrukwekkende prestatie, de Japanse startup Sakana AI’s codeermiddel ALE-Agent heeft onlangs de eerste plaats behaald in de AtCoder Heuristic Contest (AHC058), een complexe coderingswedstrijd die gecompliceerde optimalisatieproblemen met zich meebrengt – en een moeilijkere en misschien veelzeggendere uitdaging dan benchmarks als HumanEval, die vooral het vermogen testen om geïsoleerde functies te schrijven, en waar veel AI-modellen en agenten nu regelmatig met gemak doorheen gaan (“benchmarkverzadiging”).

Sakana’s De prestaties met ALE-Agent duiden op een verschuiving naar agenten die zichzelf autonoom kunnen optimaliseren om te navigeren en goed te presteren in complexe, dynamische systemen zoals bedrijfssoftwarestacks, workflows en operationele omgevingen.

In vier uur tijd gebruikte de agent inferentie-tijdschaling om honderden oplossingen te genereren, testen en itereren, waarmee een probleem werd opgelost dat doorgaans diepe intuïtie en tijdrovend vallen en opstaan ​​van menselijke experts vereist. Het presteerde beter dan meer dan 800 menselijke deelnemers, waaronder concurrerende programmeurs van het hoogste niveau.

Hoe ALE-Agent werkt

De uitdaging in AHC058 was een klassieker combinatorische optimalisatie probleem. Deelnemers kregen de taak een reeks machines met hiërarchische relaties te beheren, zoals machines die appels produceren, en andere machines die deze appelproducerende machines bouwen. Het doel was om de output over een vast aantal beurten te maximaliseren.

In de bedrijfswereld volgt deze workflow doorgaans een strikt patroon: een domeinexpert werkt samen met een klant om een ​​‘objectieve functie’ (ook wel de Scorer genoemd) te definiëren, en vervolgens bouwen ingenieurs een softwaresysteem om deze te optimaliseren. Deze problemen zijn notoir moeilijk omdat ze niet in één fase kunnen worden opgelost. Ze vereisen verkenning, strategie en het vermogen om te schakelen als een plan niet werkt.

Resultaten van de AHC-wedstrijd (bron: Sakana AI-blog)

Menselijke experts benaderen dit doorgaans met behulp van een tweefasenstrategie. Ten eerste gebruiken ze een ‘Greedy’-methode (een lichtgewicht oplosser die bij elke stap de beste directe keuze maakt) om een ​​fatsoenlijke basisoplossing te genereren. Dan gelden ze”gesimuleerde gloeien“een techniek die het bestaande plan neemt en kleine, willekeurige aanpassingen maakt om te zien of de score verbetert. Deze standaardaanpak is echter rigide. Als het oorspronkelijke Greedy-plan de verkeerde kant op gaat, kan gesimuleerd uitgloeien dit zelden oplossen, omdat het alleen zoekt naar lokale verbeteringen in een defect gebied van de oplossingsruimte.

De innovatie van ALE-Agent transformeerde deze statische initialisatietool in een dynamische reconstructie-engine. In plaats van te vertrouwen op onmiddellijke waarde, leidde de agent onafhankelijk een concept af dat hij ‘Virtuele kracht’ noemde. Het kende waarden toe aan componenten die nog niet operationeel waren en behandelde ze alsof ze al waarde bezaten. Door potentiële toekomstige activa te waarderen in plaats van alleen de huidige, profiteerde de agent van het ‘samengestelde rente-effect’, een concept dat hij expliciet identificeerde in zijn rapport. interne logboeken. Kortom, het zou een paar stappen vooruit kunnen kijken en over de toekomst kunnen redeneren in plaats van te kijken naar de onmiddellijke feedback die het van zijn omgeving ontvangt.

Cruciaal was dat de agent deze strategie gedurende een periode van vier uur moest volhouden zonder de focus te verliezen, een veel voorkomende faalwijze die bekend staat als ‘contextdrift’. In commentaar aan VentureBeat legde het Sakana AI-team uit dat de agent tekstuele ‘inzichten’ genereert door na te denken over elke proef. Het verzamelt deze kennis om te voorkomen dat het teruggrijpt op eerder mislukte strategieën en creëert een werkgeheugen waarmee het een paar stappen vooruit kan kijken in plaats van alleen maar te reageren op onmiddellijke feedback.

Bovendien integreerde de agent Greedy-methoden rechtstreeks in de gesimuleerde gloeifase om te voorkomen dat hij vast kwam te zitten in lokale optima, door gebruik te maken van snelle reconstructie om grote delen van de oplossing in een mum van tijd te verwijderen en opnieuw op te bouwen.

Van coderen tot bedrijfsoptimalisatie

Deze doorbraak past rechtstreeks in bestaande bedrijfsworkflows waar al een scorefunctie beschikbaar is. Momenteel vertrouwen bedrijven op schaars technisch talent om optimalisatie-algoritmen te schrijven. ALE-Agent demonstreert een toekomst waarin mensen de “Scorer” definiëren (dwz de bedrijfslogica en doelstellingen) en de agent de technische implementatie afhandelt.

Hierdoor verschuift het operationele knelpunt van technische capaciteit naar metrische duidelijkheid. Als een onderneming een doel kan meten, kan de agent dit optimaliseren. Dit heeft directe toepassingen in de logistiek, zoals voertuigrouting, maar ook serverloadbalancing en toewijzing van middelen.

ALE-Agent-applicaties

ALE-Agent-applicaties (bron: Sakana AI)

Volgens het Sakana AI-team zou dit de optimalisatie kunnen democratiseren. “Het maakt een toekomst mogelijk waarin niet-technische klanten rechtstreeks met de agent kunnen communiceren, waardoor zakelijke beperkingen in realtime kunnen worden aangepast totdat ze de gewenste output krijgen”, zeiden ze.

Het Sakana AI-team vertelde VentureBeat dat ALE-Agent momenteel eigen is en niet beschikbaar is voor openbaar gebruik, en dat het bedrijf zich momenteel richt op interne ontwikkeling en proof-of-concept-samenwerkingen met bedrijven.

Tegelijkertijd kijkt het team al vooruit naar ‘zelfherschrijvende’ agenten. Deze toekomstige agenten zouden hun eigen scorers kunnen definiëren, waardoor ze haalbaar worden voor slecht gedefinieerde problemen waarbij menselijke experts moeite hebben om duidelijke initiële meetgegevens te formuleren.

De kosten van intelligentie

Het runnen van ALE-Agent was niet goedkoop. De vier uur durende operatie bracht ongeveer $ 1.300 aan computerkosten met zich mee, waaronder meer dan 4.000 redeneringsoproepen naar modellen zoals GPT-5.2 En Tweeling 3 Pro. Hoewel deze prijs hoog lijkt voor een enkele codeertaak, is het rendement op de investering voor optimalisatieproblemen vaak asymmetrisch. In een context van hulpbronnenbeheer kunnen eenmalige kosten van een paar duizend dollar resulteren in miljoenen dollars aan jaarlijkse efficiëntiebesparingen.

Bedrijven die verwachten dat de kosten simpelweg zullen dalen, missen mogelijk het strategische plaatje. Terwijl de kosten van tokens dalen, kunnen de totale uitgaven zelfs stijgen naarmate bedrijven strijden om betere antwoorden, een concept dat bekend staat als de Jevons-paradox.

“Hoewel slimmere algoritmen de efficiëntie zullen vergroten, is de belangrijkste waarde van AI het vermogen om enorme oplossingsruimten te verkennen”, aldus het Sakana AI-team. “Als de gevolgtrekkingskosten dalen, zullen bedrijven er waarschijnlijk voor kiezen om die betaalbaarheid te benutten om nog diepere, bredere zoektochten uit te voeren om superieure oplossingen te vinden, in plaats van simpelweg de besparingen te verzilveren.”

Het experiment benadrukt de enorme waarde die nog moet worden ontsloten via inferentie-tijdschaaltechnieken. Naarmate AI-systemen het vermogen krijgen om complexe redeneringstaken in langere contexten uit te voeren, kunnen agenten door het bouwen van betere steigers en het toewijzen van grotere budgetten voor ‘denktijd’ wedijveren met de beste menselijke experts.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in