Home Nieuws Wanneer nauwkeurige AI nog steeds gevaarlijk onvolledig is

Wanneer nauwkeurige AI nog steeds gevaarlijk onvolledig is

6
0
Wanneer nauwkeurige AI nog steeds gevaarlijk onvolledig is

Bij het bouwen, trainen en inzetten van AI geven ondernemingen doorgaans prioriteit aan nauwkeurigheid. En dat is ongetwijfeld belangrijk; maar in zeer complexe, genuanceerde sectoren zoals de wetgeving is nauwkeurigheid alleen niet voldoende. Hogere inzetten betekenen hogere normen: de output van modellen moet worden beoordeeld op relevantie, autoriteit, citatienauwkeurigheid en hallucinatiepercentages.

Om deze enorme taak aan te pakken, LexisNexis is verder geëvolueerd dan de standaard retrieval-augmented generatie (RAG) om RAG- en agentische grafieken weer te geven; het heeft ook AI-agenten voor ‘planner’ en ‘reflectie’ ontwikkeld die verzoeken parseren en hun eigen output bekritiseren.

“Er bestaat niet zoiets als ‘perfecte AI’, omdat je nooit 100% nauwkeurigheid of 100% relevantie krijgt, vooral niet in complexe domeinen met een hoge inzet, zoals de juridische sector”, erkent Min Chen, SVP en Chief AI Officer van LexisNexis, in een nieuwe VentureBeat Beyond the Pilot-podcast.

Het doel is om die onzekerheid zoveel mogelijk te beheersen en te vertalen naar consistente klantwaarde. “Uiteindelijk is voor ons de kwaliteit van de producten het belangrijkst AI-resultaaten dat is een voortdurende reis van experimenteren, iteratie en verbetering”, zei Chen.

‘Volledige’ antwoorden krijgen op veelzijdige vragen

Om modellen en hun uitkomsten te evalueren, heeft het team van Chen meer dan een half dozijn ‘sub-metrieken’ opgesteld om ‘bruikbaarheid’ te meten op basis van verschillende factoren – autoriteit, citatienauwkeurigheid, hallucinatiepercentages – evenals ‘volledigheid’. Deze specifieke maatstaf is ontworpen om te evalueren of een gen-AI-reactie alle aspecten van de juridische vragen van een gebruiker volledig heeft beantwoord.

“Het gaat dus niet alleen om relevantie,” zei Chen. “Volledigheid spreekt rechtstreeks van juridische betrouwbaarheid.”

Een gebruiker kan bijvoorbeeld een vraag stellen die een antwoord vereist dat betrekking heeft op vijf verschillende juridische overwegingen. Gen AI kan een antwoord bieden dat drie van deze problemen nauwkeurig aanpakt. Maar hoewel relevant, is dit gedeeltelijke antwoord onvolledig en, vanuit gebruikersperspectief, onvoldoende. Dit kan misleidend zijn en reële risico’s met zich meebrengen.

Of sommige citaten kunnen dat bijvoorbeeld zijn semantisch relevant op de vraag van een gebruiker, maar ze kunnen verwijzen naar argumenten of voorbeelden die uiteindelijk door de rechtbank zijn verworpen. “Onze advocaten zullen ze als niet citeerbaar beschouwen”, zei Chen. “Als ze niet citeerbaar zijn, zijn ze niet nuttig.”

Verder gaan dan standaard RAG

LexisNexis lanceerde in 2023 zijn vlaggenschip gen AI-product, Lexis+ AI – een legale AI-tool voor het opstellen, onderzoeken en analyseren. Het was gebouwd op een standaard RAG-framework en hybride vectorzoekopdrachten die reacties baseren op de vertrouwde, gezaghebbende kennisbank van LexisNexis.

Het bedrijf bracht vervolgens in 2024 zijn persoonlijke juridische assistent, Protégé, op de markt. Deze agent integreert een kennisgrafieklaag bovenop het zoeken naar vectoren om een ​​‘sleutelbeperking’ van puur semantisch zoeken te overwinnen. Hoewel semantisch zoeken “zeer goed” is in het ophalen van contextueel relevante inhoud, “garandeert het niet altijd gezaghebbende antwoorden”, zegt Chen.

Initiële semantische zoekopdrachten leveren de inhoud op die relevant wordt geacht; Het team van Chen doorzoekt deze resultaten vervolgens via een ‘point of law’-grafiek om de meest gezaghebbende documenten verder te filteren.

Daarnaast ontwikkelt het team van Chen agentische grafieken en versnelt het de automatisering, zodat agenten complexe, uit meerdere stappen bestaande taken kunnen plannen en uitvoeren.

Zelfgestuurde ‘planneragenten’ voor onderzoeksvragen en antwoorden splitsen bijvoorbeeld gebruikersvragen op in meerdere subvragen. Menselijke gebruikers kunnen deze bekijken en bewerken om de uiteindelijke antwoorden verder te verfijnen en te personaliseren. Ondertussen zorgt een ‘reflectieagent’ voor het opstellen van transactiedocumenten. Het kan “automatisch, dynamisch” zijn oorspronkelijke concept bekritiseren, die feedback vervolgens verwerken en in realtime verfijnen.

Chen zei echter dat dit alles niet is om mensen uit de mix te halen; menselijke experts en AI-agenten kunnen ‘samen leren, redeneren en groeien’. “Ik zie de toekomst (als) een diepere samenwerking tussen mens en AI.”

Bekijk de podcast om meer te horen over:

  • Hoe LexisNexis’ overname van Handlanger hielp AI-modellen te gronden met eigen LexisNexis-gegevens en klantgegevens;

  • Het verschil tussen deterministische en niet-deterministische evaluatie;

  • Waarom bedrijven KPI’s en definities van succes moeten identificeren voordat ze overhaast beginnen te experimenteren;

  • Het belang van het focussen op een “driehoek” van sleutelcomponenten: kosten, snelheid en kwaliteit.

Je kunt ook luisteren en je abonneren Voorbij de piloot op Spotify, Appel of waar u uw podcasts ook vandaan haalt.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in