Ingenieurs die browseragenten bouwen, worden tegenwoordig geconfronteerd met de keuze tussen gesloten API’s die ze niet kunnen inspecteren en open-weight frameworks zonder getraind model eronder. Ai2 biedt nu een derde optie.
De in Seattle gevestigde non-profitorganisatie achter de open source OLMo taalmodellen en Mond vision-taalfamilie brengt vandaag MolmoWeb uit, een open-weight visuele webagent die beschikbaar is in 4 miljard en 8 miljard parametergroottes. Tot nu toe werd geen enkele visuele webagent met open gewicht geleverd met de trainingsgegevens en pijplijn die nodig waren om deze te controleren of te reproduceren. MolmoWeb wel. MolmoWebMix, de bijbehorende dataset, omvat 30.000 menselijke taaktrajecten over meer dan 1.100 websites, 590.000 individuele subtaakdemonstraties en 2,2 miljoen screenshot-vraag-antwoord-paren – die Ai2 beschrijft als de grootste publiekelijk vrijgegeven verzameling menselijke webtaakuitvoeringen ooit samengesteld.
“Kun je van het passief begrijpen van afbeeldingen, het beschrijven ervan en het ondertitelen ervan, naar het daadwerkelijk laten ondernemen van actie in een bepaalde omgeving?” Tanmay Gupta, senior onderzoeker bij Ai2, vertelde VentureBeat. “Dat is precies wat MolmoWeb is.”
Hoe het werkt: Het ziet wat jij ziet
MolmoWeb werkt volledig vanuit browserscreenshots. Het ontleedt geen HTML en vertrouwt niet op toegankelijkheidsboomrepresentaties van een pagina. Bij elke stap ontvangt het een taakinstructie, de huidige schermafbeelding, een tekstlogboek van eerdere acties en de huidige URL en paginatitel. Het produceert een gedachte in natuurlijke taal die zijn redenering beschrijft en voert vervolgens de volgende browseractie uit: klikken op schermcoördinaten, tekst typen, scrollen, naar een URL navigeren of tussen tabbladen schakelen.
Het model is browser-agnostisch. Er is alleen een screenshot voor nodig, wat betekent dat het tegen lokaal Chrome, Safari of een gehoste browserservice draait. De gehoste demo maakt gebruik van Browserbase, een startup voor een cloudbrowserinfrastructuur.
De dataset die ervoor zorgt dat het werkt
De modelgewichten zijn slechts een deel van wat Ai2 uitbrengt. MolmoWebMix, de bijbehorende trainingsdataset, is de belangrijkste onderscheidende factor ten opzichte van alle andere open-weight-agenten die vandaag de dag beschikbaar zijn.
“De gegevens zien er in principe uit als een reeks schermafbeeldingen en acties, gecombineerd met instructies voor wat de bedoeling achter die reeks schermafbeeldingen was”, zei Gupta.
MolmoWebMix combineert drie componenten.
Menselijke demonstraties. Menselijke annotators voltooiden browsetaken met behulp van een aangepaste Chrome-extensie die acties en schermafbeeldingen op meer dan 1.100 websites registreerde. Het resultaat zijn 30.000 taaktrajecten die meer dan 590.000 individuele subtaakdemonstraties omvatten.
Synthetische trajecten. Om verder te gaan dan wat menselijke annotatie alleen kan bieden, genereerde Ai2 extra trajecten met behulp van op tekst gebaseerde toegankelijkheidsboomagenten: single-agent-runs gefilterd op taaksucces, multi-agent-pijplijnen die taken opsplitsen in subdoelen en deterministische navigatiepaden over honderden websites. Cruciaal was dat er geen eigen vision-agentia werden gebruikt. De synthetische gegevens waren afkomstig van systemen met alleen tekst, niet van OpenAI Operator of de computergebruik-API van Anthropic.
GUI-perceptiegegevens. Een derde component traint het model om pagina-inhoud rechtstreeks vanuit afbeeldingen te lezen en erover te redeneren. Het bevat meer dan 2,2 miljoen screenshot-vraag-antwoord-paren afkomstig van bijna 400 websites, die betrekking hebben op elementgronding en op screenshot gebaseerde redeneringstaken.
“Als je een taak kunt uitvoeren en daarvan een traject kunt vastleggen, zou je de webagent op dat traject moeten kunnen trainen om exact dezelfde taak uit te voeren”, aldus Gupta.
Hoe MolmoWeb het doet ten opzichte van de concurrentie
Volgens Gupta zijn er twee categorieën technologieën op de markt voor browseragenten.
De eerste zijn systemen met alleen API’s, capabel maar gesloten, zonder inzicht in training of architectuur. OpenAI Operator, de computergebruik-API van Anthropic en het Gemini-computergebruik van Google vallen in deze groep. De tweede zijn modellen met een open gewicht, een aanzienlijk kleinere categorie. Browsergebruik, het meest geaccepteerde open alternatief, is eerder een raamwerk dan een getraind model. Het vereist dat ontwikkelaars hun eigen LLM leveren en daar bovenop de agentlaag bouwen.
MolmoWeb valt in de tweede categorie als een volledig getraind zichtmodel met open gewicht. Ai2 meldt dat het deze groep leidt in vier benchmarks voor live-websites: WebVoyager, Online-Mind2Web, DeepShop en WebTailBench. Volgens Ai2 presteert het ook beter dan oudere API-gebaseerde agenten gebouwd op GPT-4o met toegankelijkheidsboom plus screenshot-invoer.
Ai2 documenteert verschillende huidige beperkingen in de release. Het model maakt af en toe fouten bij het lezen van tekst uit schermafbeeldingen, interacties via slepen en neerzetten blijven onbetrouwbaar en de prestaties gaan achteruit bij dubbelzinnige of sterk beperkte instructies. Het model was ook niet getraind op taken waarvoor logins of financiële transacties nodig waren.
Enterprise-teams die browseragents evalueren, kiezen niet alleen een model. Ze beslissen of ze kunnen controleren wat ze uitvoeren, dit kunnen afstemmen op interne workflows en een API-afhankelijkheid per oproep kunnen vermijden.



