Traditionele ETL-tools zoals dbt of Fivetran bereiden gegevens voor op rapportage: gestructureerde analyses en dashboards met stabiele schema’s. AI-toepassingen hebben iets anders nodig: het voorbereiden van rommelige, evoluerende operationele gegevens voor modelafleiding in realtime.
Empromptu noemt dit onderscheid ‘inferentie-integriteit’ versus ‘rapportage-integriteit’. In plaats van datavoorbereiding als een aparte discipline te behandelen, integreren gouden pijplijnen normalisatie rechtstreeks in de AI-applicatieworkflow, waardoor wat normaal gesproken 14 dagen handmatige engineering vereist, wordt teruggebracht tot minder dan een uur, zegt het bedrijf. Empromptu’s ‘gouden pijplijn’-aanpak is een manier om de datavoorbereiding te versnellen en ervoor te zorgen dat de data accuraat zijn.
Het bedrijf werkt voornamelijk met middelgrote en zakelijke klanten in gereguleerde sectoren waar de nauwkeurigheid van gegevens en compliance niet onderhandelbaar zijn. Fintech is Empromptu’s snelst groeiende branche, met extra klanten in de gezondheidszorg en juridische technologie. Het platform is HIPAA-compatibel en SOC 2-gecertificeerd.
“Enterprise AI breekt niet op de modellaag, maar breekt wanneer rommelige gegevens echte gebruikers ontmoeten”, vertelde Shanea Leven, CEO en medeoprichter van Empromptu, aan VentureBeat in een exclusief interview. “Gouden pijplijnen brengen gegevensopname, -voorbereiding en -beheer rechtstreeks in de workflow van AI-applicaties, zodat teams systemen kunnen bouwen die daadwerkelijk in de productie werken.”
Hoe gouden pijpleidingen werken
Gouden pijpleidingen werken als een geautomatiseerde laag die zich tussen onbewerkte operationele gegevens en AI-applicatiefuncties bevindt.
Het systeem vervult vijf kernfuncties. Ten eerste neemt het gegevens op uit elke bron, inclusief bestanden, databases, API’s en ongestructureerde documenten. Vervolgens worden deze gegevens verwerkt door middel van geautomatiseerde inspectie en opschoning, structurering met schemadefinities, en labeling en verrijking om lacunes op te vullen en records te classificeren. Ingebouwde governance- en nalevingscontroles omvatten audittrails, toegangscontroles en privacyhandhaving.
De technische aanpak combineert deterministische voorverwerking met AI-ondersteunde normalisatie. In plaats van elke transformatie hard te coderen, identificeert het systeem inconsistenties, leidt het de ontbrekende structuur af en genereert het classificaties op basis van de modelcontext. Elke transformatie wordt geregistreerd en rechtstreeks gekoppeld aan de downstream AI-evaluatie.
De evaluatielus staat centraal in de manier waarop gouden pijplijnen functioneren. Als datanormalisatie de downstream-nauwkeurigheid vermindert, vangt het systeem dit op door middel van continue evaluatie van het productiegedrag. Die feedbackkoppeling tussen datavoorbereiding en modelprestaties onderscheidt golden pipelines van traditionele ETL-tools, aldus Leven.
Golden pipelines worden rechtstreeks in de Empromptu Builder ingebed en worden automatisch uitgevoerd als onderdeel van het maken van een AI-applicatie. Vanuit het perspectief van de gebruiker bouwen teams AI-functies. Onder de motorkap zorgen gouden pijplijnen ervoor dat de gegevens die deze functies voeden, schoon, gestructureerd, beheerd en klaar zijn voor productiegebruik.
Rapportage-integriteit versus inferentie-integriteit
Leven positioneert gouden pijplijnen als oplossing voor een fundamenteel ander probleem dan traditionele ETL-tools zoals dbt, Fivetran of Databricks.
“Dbt en Fivetran zijn geoptimaliseerd voor het rapporteren van integriteit. Golden pipelines zijn geoptimaliseerd voor de integriteit van gevolgtrekkingen”, aldus Leven. “Traditionele ETL-tools zijn ontworpen om gestructureerde gegevens te verplaatsen en te transformeren op basis van vooraf gedefinieerde regels. Ze gaan uit van schemastabiliteit, bekende transformaties en relatief statische logica.”
“We vervangen dbt of Fivetran niet, bedrijven zullen deze blijven gebruiken voor magazijnintegriteit en gestructureerde rapportage”, aldus Leven. “Gouden pijplijnen zitten dichter bij de AI-toepassingslaag. Ze lossen het last-mile-probleem op: hoe kun je onvolmaakte operationele gegevens uit de echte wereld gebruiken en deze bruikbaar maken voor AI-functies zonder maanden van handmatig gedoe?”
Het vertrouwensargument voor AI-gestuurde normalisatie berust op controleerbaarheid en voortdurende evaluatie.
“Het is geen magie zonder toezicht. Het is controleerbaar, controleerbaar en voortdurend geëvalueerd aan de hand van het productiegedrag”, aldus Leven. “Als normalisatie de nauwkeurigheid stroomafwaarts vermindert, wordt dit door de evaluatielus opgevangen. Die feedbackkoppeling tussen datavoorbereiding en modelprestaties is iets dat traditionele ETL-pijplijnen niet bieden.”
Klantimplementatie: VOW pakt gebeurtenisgegevens met hoge inzet aan
De gouden pijplijnaanpak heeft nu al impact in de echte wereld.
Platform voor evenementenbeheer GELOFTE verzorgt spraakmakende evenementen voor organisaties als GLAAD evenals meerdere sportorganisaties. Wanneer GLAAD een evenement plant, worden gegevens verzameld over sponsoruitnodigingen, kaartaankopen, tafels, stoelen en meer. Het proces verloopt snel en de consistentie van de gegevens is niet onderhandelbaar.
“Onze data zijn complexer dan het gemiddelde platform”, vertelde Jennifer Brisman, CEO van VOW, aan VentureBeat. “Wanneer GLAAD een evenement plant, worden gegevens verzameld over sponsoruitnodigingen, kaartaankopen, tafels en stoelen en meer. En het moet allemaal heel snel gebeuren.”
VOW schreef regex-scripts handmatig. Toen het bedrijf besloot een door AI gegenereerde plattegrondfunctie te bouwen die gegevens vrijwel in realtime bijwerkte en informatie op het hele platform vulde, werd het waarborgen van de nauwkeurigheid van de gegevens van cruciaal belang. Golden Pipelines automatiseerde het proces van het extraheren van gegevens uit plattegronden die vaak rommelig, inconsistent en ongestructureerd aankwamen, en het vervolgens formatteren en verzenden ervan zonder uitgebreide handmatige inspanningen naar het hele technische team.
VOW gebruikte Empromptu aanvankelijk voor door AI gegenereerde plattegrondanalyses die noch het AI-team van Google, noch het AI-team van Amazon konden oplossen. Het bedrijf herschrijft nu zijn volledige platform op het systeem van Empromptu.
Wat dit betekent voor zakelijke AI-implementaties
Gouden pijplijnen richten zich op een specifiek implementatiepatroon: organisaties die geïntegreerde AI-applicaties bouwen waarbij datavoorbereiding momenteel een handmatig knelpunt is tussen prototype en productie.
De aanpak is minder zinvol voor teams die al volwassen data-engineeringorganisaties hebben met gevestigde ETL-processen die zijn geoptimaliseerd voor hun specifieke domeinen, of voor organisaties die op zichzelf staande AI-modellen bouwen in plaats van geïntegreerde applicaties.
Het beslissingspunt is of datavoorbereiding de AI-snelheid in de organisatie blokkeert. Als datawetenschappers datasets voorbereiden voor experimenten die technische teams vervolgens opnieuw opbouwen voor productie, kan geïntegreerde datavoorbereiding deze leemte aanpakken.
Als het knelpunt zich ergens anders in de levenscyclus van de AI-ontwikkeling bevindt, zal dat niet het geval zijn. De wisselwerking is platformintegratie versus toolflexibiliteit. Teams die gouden pijplijnen gebruiken, committeren zich aan een geïntegreerde aanpak waarbij datavoorbereiding, AI-applicatieontwikkeling en beheer op één platform plaatsvinden. Organisaties die er de voorkeur aan geven om voor elke functie de beste tools samen te stellen, zullen deze aanpak als beperkend ervaren. Het voordeel is het elimineren van overdrachten tussen datavoorbereiding en applicatieontwikkeling. De kosten worden verminderd door de keuzevrijheid in de manier waarop deze functies worden geïmplementeerd.



