Enterprise AI-programma’s mislukken zelden vanwege slechte ideeën. Vaker komen ze vast te zitten in een niet-beheerde pilotmodus en bereiken ze nooit de productie. Tijdens een recent VentureBeat-evenement legden technologieleiders van MassMutual en Mass General Brigham uit hoe ze die valkuil hebben vermeden – en hoe de resultaten eruitzien als discipline de wildgroei vervangt.
Bij MassMutual zijn de resultaten concreet: 30% productiviteitswinst voor ontwikkelaars, oplossingstijden voor de IT-helpdesk teruggebracht van 11 minuten naar één, en telefoontjes naar de klantenservice teruggebracht van 15 minuten naar slechts één of twee.
“We beginnen altijd met: waarom geven we om dit probleem?” Sears Merritt, hoofd bedrijfstechnologie en ervaring van MassMutual, zei dit tijdens het evenement. “Als we het probleem oplossen, hoe weten we dan dat we het hebben opgelost? En hoeveel waarde is daaraan verbonden?”
Metrieken definiëren, sterke feedbackloops opzetten
MassMutual, een 175 jaar oud bedrijf dat miljoenen poliseigenaren en klanten bedient, heeft AI in het hele bedrijf in productie gebracht: klantenondersteuning, IT, klantenwerving, acceptatie, service, claims en andere gebieden.
Merritt zei dat zijn team de wetenschappelijke methode volgt, beginnend met een hypothese en testen of dit een uitkomst heeft die het bedrijf tastbaar vooruit zal helpen. Sommige ideeën zijn geweldig, maar ze kunnen ‘onhandelbaar zijn in het bedrijfsleven’ vanwege factoren als een gebrek aan gegevens of toegang, of wettelijke beperkingen.
“We gaan pas verder met een idee als we glashelder hebben over hoe we gaan meten en hoe we succes gaan definiëren.”
Uiteindelijk is het aan verschillende afdelingen en leiders om te definiëren wat kwaliteit betekent: kies een maatstaf en definieer het minimale kwaliteitsniveau voordat een tool in handen van teams en partners wordt gelegd.
Dat startpunt creëert een snelle feedbackloop. “De dingen waarvan we merken dat ze ons vertragen, zijn waar er geen gedeelde duidelijkheid is over welk resultaat we proberen te bereiken”, wat kan leiden tot verwarring en voortdurende aanpassingen, zei Merritt. “We gaan pas over tot productie als er een zakenpartner is die zegt: ‘Ja, dat werkt.’”
Zijn team is strategisch bij het evalueren van opkomende tools, en “extreem rigoureus” bij het testen en meten van wat “goed” betekent. Ze voeren bijvoorbeeld vertrouwensscores uit om het aantal hallucinaties te verlagen, stellen drempels en evaluatiecriteria vast en monitoren het verloop van kenmerken en output.
Merritt hanteert ook een vrijblijvend beleid, wat betekent dat het bedrijf zich niet vastlegt aan het gebruik van een bepaald model. Het heeft wat hij noemt een ‘ongelooflijk heterogene’ technologieomgeving die de beste modellen in zijn soort combineert met mainframes die op COBOL draaien. Die flexibiliteit is niet toevallig. Zijn team heeft gemeenschappelijke servicelagen, microservices en API’s gebouwd die zich tussen de AI-laag en alles daaronder bevinden. Dus als er een beter model komt, betekent het vervangen ervan niet dat je opnieuw moet beginnen.
Omdat, zo legde Merritt uit, “het beste van het ras van vandaag misschien wel het slechtste van het ras van morgen is, en we willen niet dat we achterop raken.”
Wieden in plaats van duizend bloemen laten bloeien
Massa-generaal Brigham (MGB) van zijn kant hanteerde in eerste instantie een meer spray-and-bid-aanpak.
Ongeveer 15.000 onderzoekers in de non-profit gezondheidszorg hebben de afgelopen 10 tot 15 jaar AI, ML en deep learning gebruikt, zei CTO Nallan “Sri” Sriraman op hetzelfde VB-evenement.
Maar vorig jaar maakte hij een gedurfde keuze: zijn team schakelde een groep niet-bestuurde AI-piloten uit. Aanvankelijk “volgden we de bloei van duizend bloemen (methodologie), maar we hadden geen duizend bloemen, we hadden waarschijnlijk een paar tientallen bloemen die probeerden te bloeien”, zei hij.
Net als Merritts team bij MassMutual koos MGB voor een meer holistische visie, waarbij werd onderzocht waarom ze bepaalde tools ontwikkelden voor specifieke afdelingen van workflows. Ze vroegen zich af welke capaciteiten ze wilden en nodig hadden en welke investeringen daarvoor nodig waren.
Het team van Sriraman sprak ook met hun belangrijkste platformaanbieders – Epic, Workday, ServiceNow, Microsoft – over hun roadmaps. Dit was een ‘cruciaal moment’, merkte hij op, toen ze zich realiseerden dat ze interne tools bouwden die leveranciers al leverden (of van plan waren uit te rollen).
Zoals Sriraman het verwoordde: “Waarom bouwen we het zelf? We bevinden ons al op het platform. Het zal deel uitmaken van de workflow. Maak er gebruik van.”
Dat gezegd hebbende, staat de markt nog in de kinderschoenen, wat voor moeilijke beslissingen kan zorgen. “De analogie die ik wil geven is wanneer je zes blinde mannen vraagt een olifant aan te raken en te zeggen: hoe ziet deze olifant eruit?” zei Sriraman. ‘Je krijgt zes verschillende antwoorden.’
Daar is niets mis mee, merkte hij op; het is gewoon zo dat iedereen aan het ontdekken en experimenteren is terwijl het landschap blijft veranderen.
In plaats van een wildwest-omgeving distribueert het team van Sriraman Microsoft Copilot onder gebruikers in het hele bedrijf en gebruikt het een “kleine landingszone” waar ze veilig meer geavanceerde producten kunnen testen en het gebruik van tokens kunnen controleren.
Ze begonnen ook “het bewust inbedden van AI-kampioenen” binnen bedrijfsgroepen. “Dit is een beetje het tegenovergestelde van duizend bloemen laten bloeien, zorgvuldig planten en voeden,” zei Sriraman.
Waarneembaarheid is een andere belangrijke overweging; hij beschrijft realtime dashboards die modeldrift en veiligheid beheren en IT-teams in staat stellen AI “een beetje pragmatischer” te besturen. Gezondheidsmonitoring is van cruciaal belang bij AI-systemen, merkte hij op, en zijn team heeft principes en beleid opgesteld rond het gebruik van AI, om nog maar te zwijgen van de toegangsrechten.
In klinische omgevingen zijn de vangrails absoluut: AI-systemen nemen nooit de uiteindelijke beslissing. “Er zal altijd een arts of een arts-assistent aanwezig zijn om de beslissing af te ronden”, zei Sriraman. Hij noemde het genereren van radiologierapporten als een gebied waar AI intensief wordt gebruikt, maar waar een radioloog altijd zijn handtekening zet.
Sriraman was duidelijk: “Gij zult dit niet doen: laat PHI (beschermde gezondheidsinformatie) niet zien in Perplexity. Zo simpel is dat, toch?”
En, belangrijker nog, er moeten veiligheidsmechanismen aanwezig zijn. “We hebben een grote rode knop nodig, schakel hem uit”, benadrukte Sriraman. “Zonder dat zetten we niets in de operationele setting.”
Hoewel agentische AI een transformatieve technologie is, hoeft de zakelijke benadering ervan uiteindelijk niet dramatisch anders te zijn. “Er is niets nieuws aan”, zei Sriraman. “Je kunt het woord BPM (business process management) uit de jaren ’90 en ’00 vervangen door AI. Dezelfde concepten zijn van toepassing.”


