Home Nieuws Terminal-Bench 2.0 lanceert naast Harbor, een nieuw raamwerk voor het testen van...

Terminal-Bench 2.0 lanceert naast Harbor, een nieuw raamwerk voor het testen van agenten in containers

17
0

De ontwikkelaars van Terminal-Bench, een benchmarksuite voor het evalueren van de prestaties van autonome AI-agenten op terminalgebaseerde taken in de echte wereld, hebben een release uitgebracht versie 2.0 langszij Haveneen nieuw raamwerk voor het testen, verbeteren en optimaliseren van AI-agents in containeromgevingen.

De dubbele release is bedoeld om al lang bestaande pijnpunten bij het testen en optimaliseren van AI-agents aan te pakken, met name degenen die zijn gebouwd om autonoom te werken in realistische ontwikkelaarsomgevingen.

Met een moeilijkere en strenger geverifieerde takenset vervangt Terminal-Bench 2.0 versie 1.0 als de standaard voor het beoordelen van de mogelijkheden van grensmodellen.

Harbor, het bijbehorende runtime-framework, stelt ontwikkelaars en onderzoekers in staat evaluaties over duizenden cloudcontainers te schalen en kan worden geïntegreerd met zowel open-source als propriëtaire agenten en trainingspijplijnen.

“Harbor is het pakket dat we graag hadden gehad bij het maken van Terminal-Bench”, schreef de mede-maker Alex Shaw op X. “Het is bedoeld voor ontwikkelaars en onderzoekers van agenten, modellen en benchmarks die agenten en modellen willen evalueren en verbeteren.”

Hogere balk, schonere gegevens

Terminal-Bench 1.0 werd daarna snel geaccepteerd release in mei 2025en wordt een standaardbenchmark voor het evalueren van de prestaties van agenten op het gebied van AI-aangedreven agenten die opereren in terminalomgevingen in ontwikkelaarsstijl. Deze agenten communiceren met systemen via de opdrachtregel en bootsen na hoe ontwikkelaars achter de schermen van de grafische gebruikersinterface werken.

De brede reikwijdte ervan bracht echter inconsistenties met zich mee. Verschillende taken werden door de gemeenschap aangemerkt als slecht gespecificeerd of onstabiel vanwege externe servicewijzigingen.

Versie 2.0 pakt deze problemen rechtstreeks aan. De bijgewerkte suite bevat 89 taken, die elk worden onderworpen aan enkele uren handmatige en LLM-ondersteunde validatie. De nadruk ligt op het oplosbaar, realistisch en duidelijk gespecificeerd maken van taken, het verhogen van de moeilijkheidsgraad en het verbeteren van de betrouwbaarheid en reproduceerbaarheid.

Een opmerkelijk voorbeeld is de download-youtube taak, die in 2.0 werd verwijderd of geherstructureerd vanwege de afhankelijkheid van onstabiele API’s van derden.

“Oplettende Terminal-Bench-fans merken misschien dat de SOTA-prestaties vergelijkbaar zijn met TB1.0, ondanks onze bewering dat TB2.0 moeilijker is”, aldus Shaw opgemerkt op X. “Wij denken dat dit komt doordat de taakkwaliteit aanzienlijk hoger is in de nieuwe benchmark.”

Harbor: uniforme implementaties op schaal

Naast de benchmarkupdate is het team gelanceerd Haveneen nieuw raamwerk voor het uitvoeren en evalueren van agenten in in de cloud geïmplementeerde containers.

Harbour ondersteunt grootschalige uitrolinfrastructuur, met compatibiliteit voor grote providers zoals Daytona En Modaal.

Harbor is ontworpen om te generaliseren over agent-architecturen en ondersteunt:

  • Evaluatie van elke container-installeerbare agent

  • Schaalbare pijplijnen voor toezicht op fijnafstemming (SFT) en versterkingsleren (RL).

  • Aangepaste benchmarkcreatie en implementatie

  • Volledige integratie met Terminal-Bench 2.

Harbor werd intern gebruikt om tienduizenden implementaties uit te voeren tijdens de creatie van de nieuwe benchmark. Het is nu openbaar beschikbaar via havenframework.commet documentatie voor het testen en indienen van agenten bij het openbare klassement.

Eerste resultaten: GPT-5 leidt tot taaksucces

De eerste resultaten van het Terminal-Bench 2.0-leaderboard tonen OpenAI’s Codex CLI (opdrachtregelinterface), een door GPT-5 aangedreven variant, aan de leiding, met een succespercentage van 49,6% – het hoogste van alle tot nu toe geteste agenten.

Vlak daarachter staan ​​andere GPT-5-varianten en op Claude Sonnet 4.5 gebaseerde agenten.

Top 5 agentresultaten (Terminal-Bench 2.0):

  1. Codex CLI (GPT-5) — 49,6%

  2. Codex CLI (GPT-5-Codex) — 44,3%

  3. OpenHands (GPT-5) — 43.8%

  4. Eindpunt 2 (GPT-5-Codex) — 43,4%

  5. Eindpunt 2 (Claude Sonnet 4.5) – 42,8%

De nauwe clustering tussen topmodellen duidt op actieve concurrentie tussen platforms, waarbij geen enkele agent meer dan de helft van de taken oplost.

Indiening en gebruik

Om een ​​agent te testen of in te dienen, installeren gebruikers Harbor en voeren ze de benchmark uit met behulp van eenvoudige CLI-opdrachten. Voor inzendingen voor het klassement zijn vijf benchmarkruns vereist, en de resultaten kunnen samen met de vacaturesites ter validatie naar de ontwikkelaars worden gemaild.

havenloop -d terminal-bench@2.0 -m “” -A “” –n-pogingen 5 –jobs-dir

Terminal-Bench 2.0 wordt al geïntegreerd in onderzoeksworkflows gericht op agentisch redeneren, het genereren van code en het gebruik van tools. Volgens co-creator Mike Merrill, een postdoctoraal onderzoeker aan Stanford, wordt er gewerkt aan een gedetailleerde preprint over het verificatieproces en de ontwerpmethodologie achter de benchmark.

Streven naar standaardisatie

De gecombineerde release van Terminal-Bench 2.0 en Harbor markeert een stap in de richting van een meer consistente en schaalbare infrastructuur voor agentevaluatie. Naarmate LLM-agents zich verspreiden in ontwikkelaars- en operationele omgevingen, is de behoefte aan gecontroleerde, reproduceerbare tests gegroeid.

Deze tools bieden een potentiële basis voor een uniforme evaluatiestapel, ter ondersteuning van modelverbetering, omgevingssimulatie en benchmarkstandaardisatie in het hele AI-ecosysteem.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in