Home Nieuws Microsoft 365 Copilot en het einde van het single-model-tijdperk in zakelijke AI

Microsoft 365 Copilot en het einde van het single-model-tijdperk in zakelijke AI

5
0
Microsoft 365 Copilot en het einde van het single-model-tijdperk in zakelijke AI

Steve Gustavson, vice-president van Microsoft voor ontwerp en onderzoek. (Microsoft-foto)

(Noot van de redactie: Agenten van transformatie is een onafhankelijke GeekWire-serie, onderschreven door Accenture, die de acceptatie en impact van AI en agenten onderzoekt. Zie dekking van ons gerelateerde evenement.)

Het gebruik van een AI-model gaat nog steeds gepaard met een onuitgesproken asterisk: Verifieer voordat je handelt. Factcheck het. Google het. Vraag het aan een collega. De last van nauwkeurigheid is uiteindelijk altijd op de mens terechtgekomen. Maar Microsoft denkt dat het een manier heeft om die last te verleggen: laat twee AI’s elkaar in de gaten houden.

In een tijdperk waarin de taken van het personeel steeds meer door AI-agenten worden afgehandeld, reikt deze multi-modellenstrategie nu uit op iets waarvan menselijke werknemers dachten dat het hun enige was: het oordeel. De ‘human-in-the-loop’ was lange tijd degene waarover niet kon worden onderhandeld in AI-workflows. De aanpak van Microsoft elimineert dit niet, maar roept wel de vraag op hoeveel van die rol we bereid zijn over te dragen.

‘Twee hoofden zijn beter dan één’

Microsoft staat niet alleen in deze weddenschap. Amazon Web Services, Google en anderen bouwen platforms die bedrijven via één interface toegang geven tot meerdere modellen.

AWS Bedrock biedt toegang tot basismodellen van meerdere providers, terwijl Google’s Gemini Enterprise één enkele voordeur presenteert voor AI op de werkplek. Het onderscheid van Microsoft is dat het de beoordeling van meerdere modellen rechtstreeks in een productiviteitstool integreert die door miljoenen werknemers wordt gebruikt.

De eerste uitvoering van dit plan hebben we vorige week gezien nieuwe upgrades naar Microsoft 365 Copilot. De Researcher-agent kan nu de GPT van OpenAI gebruiken om een ​​antwoord op te stellen en vervolgens Claude van Anthropic het laten beoordelen op juistheid, volledigheid en citatiekwaliteit voordat het definitief wordt gemaakt.

‘We willen bewust een diversiteit aan meningen’ Steve GustavsonMicrosoft’s vice-president voor ontwerp en onderzoek, vertelde GeekWire in een interview. “Twee hoofden zijn beter dan één als ze samenkomen.”

Dat is geen triviale zorg. Uit onderzoek is dat al gebleken AI-gebruikers hebben de neiging kritisch denken uit te besteden naar modellen die zij als gezaghebbend beschouwen. Als we ons oordeel al overgeven aan een enkel model, kan een tweede terugdringing van het eerste dan de ontbrekende cheque zijn?

Het is een vraag waarmee Microsoft worstelt bij het ontwerpen van Critique en Council, de twee nieuwe functies binnen zijn Researcher-agent.

“Ons onderzoek laat consequent zien dat werknemers blijven verlangen naar zowel een dieper vertrouwen in AI als hoogwaardige inhoud”, aldus Gustavson. “Mensen vertrouwen AI te veel (en accepteren beweringen die ze niet zouden moeten doen) of vertrouwen er te weinig op en krijgen niet de volledige waarde ervan. Beide zijn ontwerp- en technische mogelijkheden.”

Neem bijvoorbeeld de Critique-functie van Microsoft. Gustavson zei dat Microsoft het heeft ontworpen rond een doelbewuste overdracht: GPT leidt de generatie en Claude komt tussenbeide als recensent.

“De scheiding is van belang omdat evaluatie een andere cognitieve modus is dan generatie,” zei hij. “Als één model beide doet, krijg je twee keer dezelfde blinde vlekken. Als het de taak van een tweede model is om het eerste te valideren, krijg je iets structureel anders.”

Dit creëert een “krachtige feedbackloop die resultaten van hogere kwaliteit oplevert op het gebied van feitelijke nauwkeurigheid, analytische breedte en presentatie.” Gaurav AnandMicrosoft’s vice-president voor engineering, schreef in een technische blogpost over de kritiekfunctie van M365.

Multi-model is niet alleen een proof of concept: het is live en het is al de standaardervaring binnen Researcher. Maar Gustavson wijst er snel op dat het de meeste werknemers niet uitmaakt welke modellen er onder de motorkap draaien. De modellen zouden volgens hem onzichtbaar moeten zijn.

“De gemiddelde gebruiker wil fenomenale resultaten. Ze willen erop kunnen vertrouwen”, zei hij. “Moeten ze weten dat het 5,2 is versus wat dan ook? Ik denk het niet.”

Gustavson betwist dat dit een geval is van ‘de blinden die de blinden leiden’, en benadrukt dat het afstemmen van de modellen de manier is om hallucinaties te voorkomen. Met Researcher “heeft Claude bewezen een fantastische synthesizer te zijn en een soort controle uit te oefenen op wat de GPT-modellen zouden kunnen doen.”

Gustavson zei echter dat Microsoft voortdurend de prestaties van enkele modellen versus dubbele modellen evalueert, en “een LLM-rechter tussen de twee plaatst” om de afwegingen te zien.

Gustavson zei dat Microsoft van plan is om helemaal af te stappen van het promoten van specifieke modelnamen, en de focus te verleggen naar wat een werknemer probeert te bereiken. Hij zei dat werknemers bijvoorbeeld kunnen specificeren dat ze in de financiële wereld zitten, en Copilot zou het werk doorsturen naar de modellen die het beste overweg kunnen met Excel, datasynthese en analyse – er is geen modelkeuze nodig.

De zakelijke AI-slinger

Voor Microsoft is multi-model minder een kenmerk dan de onvermijdelijke richting van zakelijke AI. Gustavson noemt het een natuurlijke ontwikkeling en merkt op dat Copilot begon met één enkel model.

Sindsdien, zo zei hij, schommelt de industrie tussen wat modellen kunnen doen, wat de productervaring zou moeten zijn en waar de concurrentiestrijd bestaat.

“Ik denk dat dit gewoon een natuurlijke evolutie is”, zei hij. “Twee modellen zijn beter dan één.”

Omdat modellen elkaar elke paar maanden overslaan, gokt Microsoft niet op één model, maar probeert ze eerder iets te bouwen dat langer meegaat dan ze allemaal.

Nu organisaties steeds meer met AI experimenteren en er afhankelijk van worden voor vervolgbeslissingen, begint de benadering op basis van één model zijn grenzen te tonen. De vraag is misschien niet zozeer of bedrijven meerdere modellen moeten adopteren, maar eerder of ze bereid zijn een systeem te accepteren waarin controles geautomatiseerd zijn, modellen onzichtbaar zijn en AI AI beoordeelt voordat een mens ooit de output ziet.

Naast de initiële integratie in de Researcher-agent zei Gustavson dat Microsoft van plan is de multi-modelbenadering uit te breiden naar zijn andere AI-tools. Hij hoopt dat deze aanpak standaard wordt in de hele sector. Volgens hem is het inbouwen van multi-model review in agentische workflows zowel goed bestuur als goed ontwerp.

Voor degenen die ervaringen met agenten opbouwen, is het advies van Gustavson eenvoudig: behandel agenten zoals elk proces met betekenisvolle gevolgen. De hamvraag: “Wie controleert het werk?”

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in