Home Nieuws Microsoft’s Fara-7B is een AI-agent voor computergebruik die kan wedijveren met GPT-4o...

Microsoft’s Fara-7B is een AI-agent voor computergebruik die kan wedijveren met GPT-4o en rechtstreeks op uw pc werkt

2
0
Microsoft’s Fara-7B is een AI-agent voor computergebruik die kan wedijveren met GPT-4o en rechtstreeks op uw pc werkt

Microsoft heeft geïntroduceerd Fara-7B, een nieuw parametermodel van 7 miljard ontworpen om te fungeren als een Computer Use Agent (CUA) die complexe taken rechtstreeks op het apparaat van een gebruiker kan uitvoeren. Fara-7B zet nieuwe state-of-the-art resultaten neer voor zijn omvang en biedt een manier om AI-agents te bouwen die niet afhankelijk zijn van enorme, cloud-afhankelijke modellen en kunnen draaien op compacte systemen met lagere latentie en verbeterde privacy.

Hoewel het model een experimentele versie is, pakt de architectuur ervan een primaire barrière aan voor de adoptie door ondernemingen: gegevensbeveiliging. Omdat Fara-7B klein genoeg is om lokaal te draaien, kunnen gebruikers gevoelige workflows automatiseren, zoals het beheren van interne accounts of het verwerken van gevoelige bedrijfsgegevens, zonder dat die informatie ooit het apparaat verlaat.

Hoe Fara-7B het web ziet

Fara-7B is ontworpen om door gebruikersinterfaces te navigeren met dezelfde hulpmiddelen als een mens: een muis en toetsenbord. Het model werkt door een webpagina visueel waar te nemen via schermafbeeldingen en specifieke coördinaten te voorspellen voor acties zoals klikken, typen en scrollen.

Cruciaal is dat Fara-7B niet vertrouwt op ’toegankelijkheidsbomen’, de onderliggende codestructuur die browsers gebruiken om webpagina’s aan schermlezers te beschrijven. In plaats daarvan vertrouwt het uitsluitend op visuele gegevens op pixelniveau. Met deze aanpak kan de agent communiceren met websites, zelfs als de onderliggende code onduidelijk of complex is.

Volgens Yash Lara, Senior PM Lead bij Microsoft Research, zorgt het verwerken van alle visuele invoer op het apparaat voor echte ‘pixelsoevereiniteit’, omdat schermafbeeldingen en de redenering die nodig is voor automatisering op het apparaat van de gebruiker blijven staan. “Deze aanpak helpt organisaties te voldoen aan strenge eisen in gereguleerde sectoren, waaronder HIPAA en GLBA”, vertelde hij in schriftelijke commentaren aan VentureBeat.

Bij benchmarkingtests heeft deze visuele benadering sterke resultaten opgeleverd. Op WebVoyagereen standaardbenchmark voor webagenten, behaalde Fara-7B een taaksuccespercentage van 73,5%. Dit presteert beter dan grotere, meer resource-intensieve systemen, waaronder GPT-4owanneer gevraagd wordt om op te treden als computergebruiksagent (65,1%) en het native UI-TARS-1.5-7B-model (66,4%).

Efficiëntie is een andere belangrijke onderscheidende factor. In vergelijkende tests voltooide Fara-7B taken in gemiddeld ongeveer 16 stappen, vergeleken met ongeveer 41 stappen voor het UI-TARS-1.5-7B-model.

Omgaan met risico’s

De transitie naar autonome agenten is echter niet zonder risico’s. Microsoft merkt op dat Fara-7B dezelfde beperkingen heeft als andere AI-modellen, waaronder mogelijke hallucinaties, fouten bij het volgen van complexe instructies en verslechtering van de nauwkeurigheid bij ingewikkelde taken.

Om deze risico’s te beperken, werd het model getraind om ‘kritieke punten’ te herkennen. Een kritiek punt wordt gedefinieerd als elke situatie waarbij de persoonlijke gegevens of toestemming van een gebruiker vereist zijn voordat een onomkeerbare actie plaatsvindt, zoals het verzenden van een e-mail of het voltooien van een financiële transactie. Wanneer een dergelijk moment wordt bereikt, is Fara-7B ontworpen om te pauzeren en expliciet toestemming van de gebruiker te vragen voordat verder wordt gegaan.

Het beheren van deze interactie zonder de gebruiker te frustreren is een belangrijke ontwerpuitdaging. “Het balanceren van robuuste beveiligingen zoals Critical Points met naadloze gebruikerstrajecten is van cruciaal belang”, aldus Lara. “Het hebben van een gebruikersinterface, zoals de Magentic-UI van Microsoft Research, is van cruciaal belang om gebruikers de mogelijkheid te geven om in te grijpen wanneer dat nodig is, en om tegelijkertijd goedkeuringsmoeheid te voorkomen.” Magnetische gebruikersinterface is een onderzoeksprototype dat speciaal is ontworpen om deze interacties tussen mens en agent te vergemakkelijken. Fara-7B is ontworpen om te draaien in Magnetic-UI.

Complexiteit in één model destilleren

De ontwikkeling van Fara-7B benadrukt een groeiende trend in destillatie van kenniswaarbij de mogelijkheden van een complex systeem worden gecomprimeerd tot een kleiner, efficiënter model.

Voor het maken van een CUA zijn doorgaans enorme hoeveelheden trainingsgegevens nodig die laten zien hoe u op internet kunt navigeren. Het verzamelen van deze gegevens via menselijke annotatie is onbetaalbaar. Om dit op te lossen heeft Microsoft een synthetische datapijplijn gebruikt Magische-Eeneen raamwerk met meerdere agenten. In deze opzet creëerde een ‘Orchestrator’-agent plannen en gaf hij een ‘WebSurfer’-agent de opdracht om op internet te surfen, wat 145.000 succesvolle taaktrajecten genereerde.

De onderzoekers hebben deze complexe interactiegegevens vervolgens ‘gedistilleerd’ in Fara-7B, dat is gebouwd op Qwen2.5-VL-7B, een basismodel dat is gekozen vanwege het lange contextvenster (tot 128.000 tokens) en het sterke vermogen om tekstinstructies te verbinden met visuele elementen op een scherm. Hoewel de gegevensgeneratie een zwaar multi-agentsysteem vereiste, is Fara-7B zelf een enkel model, wat aantoont dat een klein model effectief geavanceerd gedrag kan leren zonder dat er tijdens runtime complexe steigers nodig zijn.

Het trainingsproces was gebaseerd op verfijnde afstemming onder toezicht, waarbij het model leert door de succesvolle voorbeelden na te bootsen die door de synthetische pijpleiding zijn gegenereerd.

Ik kijk vooruit

Hoewel de huidige versie is getraind op statische datasets, zullen toekomstige iteraties zich richten op het slimmer maken van het model, en niet noodzakelijkerwijs groter. “In de toekomst zullen we ernaar streven om de kleine omvang van onze modellen te behouden,” zei Lara. “Ons lopende onderzoek is gericht op het slimmer en veiliger maken van agentische modellen, niet alleen groter.” Dit omvat het verkennen van technieken zoals versterkend leren (RL) in live, sandbox-omgevingen, waardoor het model in realtime met vallen en opstaan ​​kan leren.

Microsoft heeft het model onder een MIT-licentie beschikbaar gesteld op Hugging Face en Microsoft Foundry. Lara waarschuwt echter dat, hoewel de licentie commercieel gebruik toestaat, het model nog niet productieklaar is. “Je kunt vrij experimenteren en prototypen maken met Fara-7B onder de MIT-licentie”, zegt hij, “maar het is het meest geschikt voor pilots en proofs-of-concept in plaats van missiekritieke implementaties.”

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in