Wanneer een OpenAI financieel analist Vorig jaar was het nodig om de omzet over verschillende regio’s en klantencohorten te vergelijken, en dat kostte uren werk: het doorzoeken van 70.000 datasets, het schrijven van SQL-query’s, het verifiëren van tabelschema’s. Tegenwoordig typt dezelfde analist een eenvoudige vraag in Slack en krijgt binnen enkele minuten een voltooide grafiek.
De tool achter die transformatie werd in drie maanden tijd door twee ingenieurs gebouwd. Zeventig procent van de code is geschreven door AI. En het wordt nu elke dag gebruikt door meer dan 4.000 van de ongeveer 5.000 werknemers van OpenAI – waardoor het een van de meest agressieve implementaties van een AI-dataagent is binnen elk bedrijf, waar dan ook.
In een exclusief interview met VentureBeat bood Emma Tang, het hoofd van de data-infrastructuur bij OpenAI en wiens team de agent bouwde, een zeldzaam kijkje in het systeem: hoe het werkt, hoe het faalt en wat het aangeeft over de toekomst van bedrijfsdata. Het gesprek, gecombineerd met dat van het bedrijf blogpost Door de tool aan te kondigen, wordt een beeld geschetst van een bedrijf dat zijn eigen AI op zichzelf heeft ingezet en iets heeft ontdekt waar elke onderneming binnenkort mee te maken zal krijgen: het knelpunt voor slimmere organisaties zijn niet de betere modellen. Het zijn betere gegevens.
“De agent wordt gebruikt voor elke vorm van analyse”, zei Tang. “Bijna elk team in het bedrijf gebruikt het.”
Een duidelijke Engelse interface voor 600 petabytes aan bedrijfsgegevens
Om te begrijpen waarom OpenAI dit systeem heeft gebouwd, moet u rekening houden met de omvang van het probleem. Het dataplatform van het bedrijf omvat meer dan 600 petabytes verspreid over 70.000 datasets. Zelfs het lokaliseren van de juiste tabel kan uren van de tijd van een datawetenschapper in beslag nemen. Het Data Platform-team van Tang – dat onder de infrastructuur zit en toezicht houdt op big data-systemen, streaming en de datatooling-laag – bedient een duizelingwekkende interne gebruikersbasis. “Er zijn momenteel 5.000 werknemers bij OpenAI”, zei Tang. “Meer dan 4.000 gebruiken de datatools die ons team biedt.”
De agent, gebouwd op GPT-5.2 en toegankelijk overal waar werknemers al werken — Slankeen webinterface, Ides, de Codex CLIen OpenAI’s interne ChatGPT-app – accepteert vragen in eenvoudig Engels en retourneert grafieken, dashboards en lange analytische rapporten. In vervolgreacties die op de achtergrond met VentureBeat werden gedeeld, schatte het team dat dit twee tot vier uur werk per zoekopdracht bespaart. Maar Tang benadrukte dat de grotere winst moeilijker te meten is: de agent geeft mensen toegang tot analyses die ze voorheen simpelweg niet hadden kunnen doen, ongeacht hoeveel tijd ze hadden.
“Ingenieurs, groei-, product- en niet-technische teams, die misschien niet alle ins en outs van de bedrijfsdatasystemen en tabelschema’s kennen”, kunnen nu zelf geavanceerde inzichten verkrijgen, merkte haar team op.
Van het uitsplitsen van inkomsten tot het opsporen van fouten in de latentie: één agent doet het allemaal
Tang liep door verschillende concrete gebruiksscenario’s die het bereik van de agent illustreren. Het financiële team van OpenAI vraagt het om omzetvergelijkingen tussen regio’s en klantcohorten. “Het kan, gewoon letterlijk in platte tekst, de agent een vraag sturen, en het zal in staat zijn om te reageren en u grafieken en dashboards te geven, al deze dingen,” zei ze.
Maar de echte kracht ligt in strategische, meerstapsanalyse. Tang beschreef een recent geval waarin een gebruiker discrepanties ontdekte tussen de tracking van twee dashboards Plus groei van het aantal abonnees. “De data-agent kan je een diagram geven en je, stapelrang voor stapelrang, precies laten zien wat de verschillen zijn”, zei ze. “Er bleken vijf verschillende factoren te zijn. Voor een mens zou dat uren, zo niet dagen duren, maar de agent kan het in een paar minuten.”
Productmanagers gebruiken het om de adoptie van functies te begrijpen. Ingenieurs gebruiken het om prestatieregressies te diagnosticeren. Ze vragen bijvoorbeeld of een specifiek ChatGPT-component echt langzamer is dan gisteren, en zo ja, welke latentiecomponenten de verandering verklaren. De agent kan alles in één keer opsplitsen en eerdere perioden vergelijken.
Wat dit bijzonder ongebruikelijk maakt, is dat de agent over de grenzen van de organisatie heen opereert. De meeste zakelijke AI-agenten bevinden zich tegenwoordig in silo’s binnen afdelingen – een financiële bot hier, een HR-bot daar. OpenAI snijdt horizontaal door het bedrijf. Tang zei dat ze afdeling voor afdeling hebben gelanceerd, waarbij ze voor elke groep een specifiek geheugen en een specifieke context hebben samengesteld, maar “op een gegeven moment bevindt het zich allemaal in dezelfde database.” Een senior leider kan verkoopgegevens combineren met technische statistieken en productanalyses in één enkele zoekopdracht. “Dat is echt een uniek kenmerk van ons”, zei Tang.
Hoe Codex het moeilijkste probleem op het gebied van bedrijfsgegevens oploste
Het vinden van de juiste tabel uit 70.000 datasets is, zoals Tang zelf toegeeft, de moeilijkste technische uitdaging waarmee haar team wordt geconfronteerd. “Dat is het grootste probleem met deze agent”, zei ze. En het is waar Codex – de AI-codeeragent van OpenAI – speelt zijn meest inventieve rol.
Codex vervult een drievoudige taak in het systeem. Gebruikers hebben toegang tot de gegevensagent via Codex via MCP. Het team gebruikte Codex om meer dan 70% van de eigen code van de agent te genereren, waardoor twee ingenieurs binnen drie maanden konden leveren. Maar de derde rol is technisch gezien het meest fascinerend: een dagelijks asynchroon proces waarbij Codex belangrijke gegevenstabellen onderzoekt, de onderliggende pijplijncode analyseert en de upstream- en downstream-afhankelijkheden, eigendom, granulariteit, join-sleutels en soortgelijke tabellen van elke tabel bepaalt.
“We geven het een prompt, laten Codex naar de code kijken en reageren met wat we nodig hebben, en zetten dat vervolgens door in de database”, legt Tang uit. Wanneer een gebruiker later naar de inkomsten vraagt, doorzoekt de agent een vectordatabase om te zien welke tabellen Codex al aan dat concept heeft toegewezen.
Dit “Codex-verrijking” is een van de zes contextlagen die de agent gebruikt. De lagen variëren van basisschema-metagegevens en samengestelde expertbeschrijvingen tot institutionele kennis uit Slack, Google Docs en Notion, plus een leergeheugen waarin correcties uit eerdere gesprekken worden opgeslagen. Als er geen eerdere informatie bestaat, valt de agent terug op live zoekopdrachten in het datawarehouse.
Het team rangschikt ook historische zoekpatronen. “De hele zoekgeschiedenis is de ‘select star, limit 10’ van iedereen. Het helpt niet echt”, zei Tang. Canonieke dashboards en managementrapporten – waarin analisten aanzienlijke inspanningen hebben geleverd om de juiste representatie te bepalen – worden gemarkeerd als ‘bron van waarheid’. Al het andere krijgt geen prioriteit.
De prompt die de AI dwingt om te vertragen en na te denken
Zelfs met zes contextlagen was Tang opmerkelijk openhartig over de grootste gedragsfout van de agent: overmoed. Het is een probleem dat iedereen die met grote taalmodellen heeft gewerkt, zal herkennen.
“Het is een heel groot probleem, want wat het model vaak doet, is zich overmoedig voelen”, zei Tang. “Het zal zeggen: ‘Dit is de juiste tabel’, en gewoon doorgaan en beginnen met analyseren. Dat is eigenlijk de verkeerde aanpak.”
De oplossing kwam dankzij snelle engineering, waardoor de agent in een ontdekkingsfase moest blijven hangen. “We ontdekten dat hoe meer tijd het besteedt aan het verzamelen van mogelijke scenario’s en het vergelijken van welke tabel moet worden gebruikt – door gewoon meer tijd door te brengen in de ontdekkingsfase – hoe beter de resultaten,” zei ze. De prompt luidt bijna als het coachen van een junior analist: “Voordat je hiermee verder gaat, wil ik echt dat je meer valideert of dit de juiste tabel is. Controleer dus eerst meer bronnen voordat je begint en daadwerkelijke gegevens creëert.”
Het team heeft door rigoureuze evaluatie ook geleerd dat minder context betere resultaten kan opleveren. “Het is heel gemakkelijk om alles erin te gooien en gewoon te verwachten dat het beter zal gaan”, zei Tang. “Uit onze evaluaties hebben we feitelijk het tegenovergestelde ontdekt. Hoe minder dingen je eraan geeft, en hoe beter samengesteld en nauwkeuriger de context is, hoe beter de resultaten.”
Om vertrouwen op te bouwen, streamt de agent zijn tussentijdse redeneringen in realtime naar gebruikers, onthult welke tabellen hij heeft geselecteerd en waarom, en linkt hij rechtstreeks naar de onderliggende zoekopdrachtresultaten. Gebruikers kunnen de agent midden in de analyse onderbreken om deze om te leiden. Het systeem controleert ook de voortgang, zodat het na storingen kan hervatten. En aan het einde van elke taak evalueert het model zijn eigen prestaties. “We vragen het model: ‘hoe vond je dat dat ging? Was dat goed of slecht?'” zei Tang. “En het is eigenlijk redelijk goed in het evalueren van hoe goed het het doet.”
Vangrails die bewust eenvoudig zijn – en verrassend effectief
Als het op veiligheid aankomt, heeft Tang een pragmatische aanpak gevolgd die bedrijven kan verrassen die geavanceerde AI-uitlijningstechnieken verwachten.
‘Ik denk dat je gewoon nog meer domme vangrails moet hebben,’ zei ze. “We hebben een zeer sterke toegangscontrole. Er wordt altijd gebruik gemaakt van uw persoonlijke token, dus waartoe u ook toegang heeft, is alleen waartoe u toegang heeft.”
De agent fungeert puur als interfacelaag en neemt dezelfde machtigingen over als de gegevens van OpenAI. Het verschijnt nooit in openbare kanalen – alleen in privékanalen of in de eigen interface van een gebruiker. Schrijftoegang is beperkt tot een tijdelijk testschema dat periodiek wordt gewist en niet kan worden gedeeld. “We laten het ook niet willekeurig naar systemen schrijven”, zei Tang.
Gebruikersfeedback sluit de cirkel. Medewerkers signaleren onjuiste resultaten direct en het team gaat op onderzoek uit. De zelfevaluatie van het model voegt nog een controle toe. Op de langere termijn, zegt Tang, is het plan om te evolueren naar een multi-agent-architectuur waarin gespecialiseerde agenten elkaar controleren en helpen. ‘Uiteindelijk gaan we daar naartoe,’ zei ze, ‘maar op dit moment zijn we, zoals het nu is, behoorlijk ver gekomen.’
Waarom OpenAI deze tool niet wil verkopen, maar wil dat je er zelf een bouwt
Ondanks het duidelijke commerciële potentieel vertelde OpenAI aan VentureBeat dat het bedrijf geen plannen heeft om het te gaan produceren interne gegevensagent. De strategie is om bouwstenen aan te bieden en bedrijven hun eigen bouwstenen te laten bouwen. En Tang maakte duidelijk dat alles wat haar team heeft gebruikt om het systeem te bouwen, al extern beschikbaar is.
“We gebruiken allemaal dezelfde API’s die extern beschikbaar zijn”, zei ze. “De Responses API, de Evals API. We hebben geen verfijnd model. We gebruiken gewoon 5.2. Dus je kunt dit zeker bouwen.”
Die boodschap sluit aan bij de bredere zakelijke push van OpenAI. Het bedrijf is gelanceerd OpenAI-grens begin februari een end-to-end platform voor ondernemingen om AI-agents te bouwen en te beheren. Sindsdien heeft het McKinsey, Boston Consulting Group, Accenture en Capgemini ingeschakeld helpen het platform te verkopen en te implementeren. AWS en OpenAI ontwikkelen gezamenlijk een Stateful Runtime-omgeving voor Amazon Bedrock dat een aantal van de persistente contextmogelijkheden weerspiegelt die OpenAI in zijn data-agent heeft ingebouwd. En Apple onlangs geïntegreerde Codex rechtstreeks in Xcode.
Volgens informatie die OpenAI met VentureBeat deelt, wordt Codex nu gebruikt door 95% van de technici bij OpenAI en worden alle pull-aanvragen beoordeeld voordat ze worden samengevoegd. Het wereldwijde wekelijkse actieve gebruikersbestand is sinds het begin van het jaar verdrievoudigd tot meer dan een miljoen. Het totale gebruik is meer dan vervijfvoudigd.
Tang beschreef een verschuiving in de manier waarop werknemers Codex gebruiken die het coderen volledig overstijgt. “Codex is niet eens meer een codeertool. Het is veel meer dan dat”, zei ze. “Ik zie dat niet-technische teams het gebruiken om gedachten te ordenen, dia’s te maken en dagelijkse samenvattingen te maken.” Een van haar technische managers laat Codex elke ochtend haar aantekeningen beoordelen, de belangrijkste taken identificeren, Slack-berichten en DM’s binnenhalen en reacties opstellen. “Het werkt op veel manieren echt namens haar”, zei Tang.
De onsexy voorwaarde die zal bepalen wie de AI-agentrace wint
Op de vraag wat andere ondernemingen zouden moeten meenemen uit de ervaring van OpenAI, verwees Tang niet naar modelmogelijkheden of slimme, snelle engineering. Ze wees naar iets veel alledaagsers.
“Dit is niet sexy, maar data-governance is erg belangrijk voor een goede werking van data-agenten”, zegt ze. “Je gegevens moeten schoon genoeg zijn en voldoende geannoteerd, en er moet ergens een bron van waarheid zijn waar de agent doorheen kan kruipen.”
De onderliggende infrastructuur – opslag-, reken-, orkestratie- en business intelligence-lagen – is niet vervangen door de agent. Het heeft nog steeds al deze hulpmiddelen nodig om zijn werk te kunnen doen. Maar het dient als een fundamenteel nieuw toegangspunt voor data-intelligentie, een die autonomer en toegankelijker is dan alles wat eraan voorafging.
Tang sloot het interview af met een waarschuwing voor bedrijven die aarzelen. “Bedrijven die dit adopteren, zullen de voordelen zeer snel zien”, zei ze. “En bedrijven die dat niet doen, zullen achterop raken. Het zal uit elkaar vallen. De bedrijven die er gebruik van maken, zullen heel, heel snel vooruitgang boeken.”
Gevraagd of die versnelling haar eigen collega’s zorgen baarde – vooral daarna een golf van recente ontslagen bij bedrijven als Block — Tang zweeg even. “Hoeveel we als bedrijf kunnen doen, is versneld”, zei ze, “maar het komt nog steeds niet overeen met onze ambities, zelfs niet een beetje.”


