Home Nieuws Het tijdperk van agentische AI ​​vereist een dataconstitutie, geen betere aanwijzingen

Het tijdperk van agentische AI ​​vereist een dataconstitutie, geen betere aanwijzingen

5
0
Het tijdperk van agentische AI ​​vereist een dataconstitutie, geen betere aanwijzingen

De consensus binnen de sector is dat 2026 het jaar zal zijn van ‘agentische AI’. We gaan snel voorbij aan chatbots die eenvoudigweg tekst samenvatten. We betreden het tijdperk van autonome agenten die taken uitvoeren. We verwachten van hen dat ze vluchten boeken, systeemstoringen diagnosticeren, de cloudinfrastructuur beheren en mediastreams in realtime personaliseren.

Als technologiemanager die toezicht houdt op platforms die 30 miljoen gelijktijdige gebruikers bedienen tijdens grote mondiale evenementen zoals de Olympische Spelen en de Super Bowl, heb ik de onsexy realiteit achter de hype gezien: agenten zijn ongelooflijk kwetsbaar.

Leidinggevenden en durfkapitaalfondsen zijn geobsedeerd door modelbenchmarks. Ze debatteren over Llama 3 versus GPT-4. Ze richten zich op het maximaliseren van de contextvenstergroottes. Toch negeren ze het feitelijke faalpunt. De belangrijkste reden waarom autonome agenten falen in de productie, is vaak te wijten aan problemen met de gegevenshygiëne.

In het vorige tijdperk van ‘human-in-the-loop’-analyses was de datakwaliteit een beheersbare hindernis. Als er een probleem optreedt met een ETL-pijplijn, kan een dashboard een onjuist omzetnummer weergeven. Een menselijke analist zou de anomalie opmerken, signaleren en repareren. De straal van de ontploffing was beperkt.

In de nieuwe wereld van autonome agentendat vangnet is verdwenen.

Als een datapijplijn vandaag de dag afwijkt, rapporteert een agent niet zomaar het verkeerde nummer. Er is het verkeerde voor nodig actie. Het levert het verkeerde servertype op. Het raadt een gebruiker die tekenfilms bekijkt een horrorfilm aan. Het hallucineert een antwoord van de klantenservice op basis van beschadigde vectorinbedding.

Om AI op de schaal van de NFL of de Olympische Spelen te kunnen uitvoeren, realiseerde ik me dat het standaard opschonen van gegevens onvoldoende is. We kunnen gegevens niet zomaar ‘monitoren’. We moeten het in wetgeving omzetten.

Een oplossing voor dit specifieke probleem zou kunnen liggen in de vorm van een ‘data quality – creed’ raamwerk. Het functioneert als een ‘dataconstitutie’. Het dwingt duizenden geautomatiseerde regels af voordat een enkele byte aan gegevens in aanraking mag komen met een AI-model. Hoewel ik dit specifiek heb toegepast op de streamingarchitectuur bij NBCUniversal, is de methodologie universeel voor elke onderneming die AI-agents wil operationeel maken.

Dit is de reden waarom ‘defensieve data-engineering’ en de Credo filosofie zijn de enige manieren om het Agentic-tijdperk te overleven.

De vectordatabaseval

Het kernprobleem met AI-agenten is dat ze de context vertrouwen die je ze impliciet geeft. Als u RAG gebruikt, is uw vectordatabase het langetermijngeheugen van de agent.

Standaardproblemen met de gegevenskwaliteit zijn catastrofaal vectordatabases. In traditionele SQL-databases is een nulwaarde slechts een nulwaarde. In een vectordatabase kan een nulwaarde of een schema-mismatch de semantische betekenis van de gehele inbedding vervormen.

Overweeg een scenario waarin metagegevens afdrijven. Stel dat uw pijplijn videometadata opneemt, maar een race condition ervoor zorgt dat de tag ‘genre’ wegvalt. Uw metadata kunnen een video taggen als ‘live sport’, maar de insluiting is gegenereerd op basis van een ‘nieuwsfragment’. Wanneer een agent de database doorzoekt naar ’touchdown-hoogtepunten’, haalt hij het nieuwsfragment op omdat het zoeken naar vectorgelijkenis werkt op een beschadigd signaal. De agent levert die clip vervolgens aan miljoenen gebruikers.

Op grote schaal kun je niet vertrouwen op downstream monitoring om dit op te vangen. Tegen de tijd dat het alarm afgaat, heeft de agent al duizenden slechte beslissingen genomen. Kwaliteitscontroles moeten naar de absolute ‘linkerkant’ van de pijplijn verschuiven.

Het ‘Creed’-raamwerk: 3 principes om te overleven

De Geloofsovertuiging Er wordt verwacht dat het raamwerk als poortwachter zal fungeren. Het is een kwaliteitsarchitectuur met meerdere tenants die zich tussen opnamebronnen en AI-modellen bevindt.

Voor technologieleiders die hun eigen ‘grondwet’ willen opbouwen, zijn hier de drie niet-onderhandelbare principes die ik aanbeveel.

1. Het “quarantaine”-patroon is verplicht: In veel moderne dataorganisaties geven ingenieurs de voorkeur aan de ‘ELT’-aanpak. Ze dumpen ruwe gegevens in een meer en ruimen deze later op. Voor AI-agenten is dit onaanvaardbaar. Je kunt een agent niet laten drinken uit een vervuild meer.

De Geloofsovertuiging De methodologie dwingt een strikte ‘dead letter wachtrij’ af. Als een datapakket een contract schendt, wordt het onmiddellijk in quarantaine geplaatst. Het bereikt nooit de vectordatabase. Het is veel beter voor een agent om ‘ik weet het niet’ te zeggen vanwege ontbrekende gegevens, dan vol vertrouwen te liegen vanwege slechte gegevens. Dit ‘stroomonderbreker’-patroon is essentieel voor het voorkomen van spraakmakende hallucinaties.

2. Schema is wet: Jarenlang heeft de industrie zich ontwikkeld tot ‘schemaloze’ flexibiliteit om snel te kunnen handelen. We moeten die trend keren voor kern-AI-pijplijnen. We moeten strikte type- en referentiële integriteit afdwingen.

Mijn ervaring is dat een robuust systeem schaalgrootte vereist. De implementatie die ik momenteel begeleid, wordt gehandhaafd meer dan 1.000 actieve regels loopt over realtime streams. Deze controleren niet alleen op nulwaarden. Ze controleren op consistentie van de bedrijfslogica.

  • Voorbeeld: Komt het ‘user_segment’ in de gebeurtenisstroom overeen met de actieve taxonomie in het functiearchief? Zo niet, blokkeer het dan.

  • Voorbeeld: Bevindt de tijdstempel zich binnen het acceptabele latentievenster voor realtime gevolgtrekking? Zo niet, laat het vallen.

3. Vectorconsistentiecontroles Dit is de nieuwe grens voor SRE’s. We moeten geautomatiseerde controles implementeren om ervoor te zorgen dat de tekstblokken die in een vectordatabase zijn opgeslagen, daadwerkelijk overeenkomen met de inbeddingsvectoren die eraan zijn gekoppeld. Bij ‘stille’ fouten in een inbeddingsmodel-API blijven er vaak vectoren over die naar niets verwijzen. Hierdoor halen agenten pure ruis op.

De cultuuroorlog: ingenieurs versus bestuur

Het implementeren van een raamwerk zoals Geloofsovertuiging is niet alleen een technische uitdaging. Het is een culturele.

Ingenieurs hebben over het algemeen een hekel aan vangrails. Ze beschouwen strikte schema’s en datacontracten als bureaucratische hindernissen die de implementatiesnelheid vertragen. Bij de introductie van een datagrondwet krijgen leiders vaak te maken met tegenwerking. Teams hebben het gevoel dat ze terugkeren naar het ‘waterval’-tijdperk van rigide databasebeheer.

Om te slagen, moet u de incentivestructuur omdraaien. Dat hebben wij aangetoond Geloofsovertuiging was eigenlijk een versneller. Door de zuiverheid van de invoergegevens te garanderen, hebben we de weken geëlimineerd die datawetenschappers besteedden aan het debuggen van modelhallucinaties. We hebben data governance van een compliance-taak omgezet in een ‘quality of service’-garantie.

De les voor databeslissers

Als u een AI-strategie voor 2026 aan het ontwikkelen bent, stop dan met het kopen van meer GPU’s. Maak je geen zorgen meer over welk basismodel deze week iets hoger op het scorebord staat.

Begin met het controleren van uw datacontracten.

Een AI-agent is slechts zo autonoom als zijn gegevens betrouwbaar zijn. Zonder een strikte, geautomatiseerde dataconstitutie zoals de Geloofsovertuiging raamwerk, zullen je agenten uiteindelijk schurkenstaten worden. In de wereld van een SRE is een malafide agent veel erger dan een kapot dashboard. Het is een stille moordenaar van vertrouwen, omzet en klantervaring.

Manoj Yerrasani is een senior technologiemanager.

Welkom bij de VentureBeat-community!

In ons gastpostprogramma delen technische experts inzichten en bieden ze neutrale, niet-gevestigde diepgaande inzichten over AI, data-infrastructuur, cyberbeveiliging en andere geavanceerde technologieën die de toekomst van het bedrijfsleven vormgeven.

Lees meer uit ons gastpostprogramma — en bekijk ons richtlijnen als u geïnteresseerd bent om een ​​eigen artikel bij te dragen!

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in