in AI bent u waarschijnlijk al een tijdje een LLM/Agent/Chat-gebruiker, maar heeft u zich ooit afgevraagd hoe deze tools in de nabije toekomst zullen worden getraind, en wat als we de gegevens die we nodig hebben om modellen te trainen al hebben opgebruikt? Veel theorieën zeggen dat we bijna geen hoogwaardige, door mensen gegenereerde gegevens meer hebben om onze modellen te trainen.
Er komt elke dag nieuwe inhoud bij, dat is een realiteit, maar een steeds groter deel van wat er dagelijks wordt toegevoegd, is zelf door AI gegenereerd. Dus als u blijft trainen op openbare webgegevens, traint u uiteindelijk op de resultaten van uw eigen voorgangers. De slang eet zijn staart op. Onderzoekers noemen dit fenomeen Model Collapse, waarbij AI-modellen beginnen te leren van de fouten van hun voorgangers totdat het hele systeem in onzin vervalt.
Maar wat als ik je vertelde dat we eigenlijk niet zonder gegevens komen te zitten? We hebben gewoon op de verkeerde plek gezocht.
In dit artikel ga ik de belangrijkste inzichten uit dit briljante artikel uiteenzetten.
Het web dat we al gebruiken en het web dat ertoe doet
De meesten van ons beschouwen het internet als een unieke informatiebron. In werkelijkheid zijn het er minstens twee.
Er is het Surface Web: de geïndexeerde, publieke wereld zoals we die vinden op Reddit, Wikipedia en nieuwssites. Dit is wat we al jaren hebben geschraapt en te veel gebruikt om de reguliere AI-modellen van vandaag te trainen. Dan is er nog wat wij het Deep Web noemen, en hier heb ik het niet over het “Dark Web” of iets illegaals.
Het Deep Web is simpelweg alles achter een login of een firewall. Het verwijst naar alles online dat niet openbaar is geïndexeerd. Het kan het patiëntenportaal van uw ziekenhuis zijn, het interne dashboard van uw bank, bedrijfsdocumentarchieven, privédatabases en jarenlange e-mail achter een inlogscherm. Normale, saaie, maar ontzettend waardevolle data.
Veel onderzoeken suggereren dat het Deep Web een orde van grootte groter is dan het Surface Web. Belangrijker nog is dat het om gegevens van cruciaal betere kwaliteit gaat. Vergeleken met oppervlakkige webinhoud, die luidruchtig kan zijn, vol verkeerde informatie en sterk SEO-geoptimaliseerd is. Ook bevat het steeds vaker inhoud die opzettelijk is ontworpen om AI-modellen te misleiden of te vergiftigen. Deep web-gegevens, zoals medische dossiers of geverifieerde financiële documenten of andere interne databases, zijn doorgaans schoon, geauthenticeerd en georganiseerd door mensen die om de kwaliteit ervan geven.
Het probleem? Ik denk dat je het wel kunt raden, het is privé. Je kunt niet zomaar een miljoen medische dossiers extraheren zonder rekening te houden met alle juridische en ethische catastrofes die je gaat veroorzaken.
Het PROPS-framework
Dit is waar een nieuw raamwerk genaamd PROPS (Protected Pipelines) in beeld komt. Geïntroduceerd door Ari Juels (Cornell Tech), Farinaz Koushanfar (UCSD) en Laurence Moroney (voormalig Google AI Lead), fungeert PROPS als een brug tussen deze gevoelige gegevens en de AI-modellen die deze nodig hebben.
Het briljante van PROPS is dat het u niet vraagt uw gegevens “over te dragen”. In plaats daarvan maakt het gebruik van privacybehoudende orakels. Beschouw een orakel als een “vertrouwde tussenpersoon” die naar uw gegevens kan kijken, kan verifiëren dat deze echt zijn, en vervolgens het AI-model kan vertellen wat het moet weten zonder het model ooit de ruwe informatie te laten zien.
Deze concepten van rekwisieten kunnen magisch klinken, omdat ze veel problemen met betrekking tot de beschikbaarheid van gegevens kunnen oplossen waarmee AI-modellen tegenwoordig worden geconfronteerd. Maar hoe werkt dit precies? Laten we een voorbeeld nemen van een medisch bedrijf dat een diagnostisch hulpmiddel wil trainen op basis van echte medische dossiers. Onder het PROPS-framework:
- Toestemming: Als gebruiker logt u in op uw eigen gezondheidsportaal en geeft u toestemming voor een specifiek gebruik van uw gegevens.
- Het Orakel: Beschouw het Orakel als een digitale notaris. Het gaat naar uw privéportaal (zoals uw ziekenhuisdatabase) om te verifiëren dat uw gegevens echt zijn. In plaats van uw bestanden te kopiëren, vertelt het eenvoudigweg aan het AI-systeem: “Ik heb de originele documenten gezien en ik getuig dat ze authentiek zijn.” Het levert het bewijs van de waarheid zonder ooit de privégegevens zelf over te dragen. Hiervoor bestaan al hulpmiddelen, zoals DECO. Het is een protocol waarmee gebruikers kunnen bewijzen dat ze een specifiek stukje gegevens van een webserver hebben gehaald via een beveiligd TLS-kanaal.
- De veilige enclave: Dit is een “zwarte doos” in de hardware van de computer, waar de daadwerkelijke training plaatsvindt. We stoppen het AI-model en uw privégegevens erin en ‘doen de deur op slot’. Geen mens of ontwikkelaar kan zien wat er binnenin gebeurt. De AI ‘bestudeert’ de gegevens en blijft achter met alleen de modelgewichten. De onbewerkte gegevens blijven binnenin vergrendeld totdat de sessie voorbij is.
- Het resultaat: Het model traint op de gegevens in dat vak. Alleen de bijgewerkte “gewichten” (het leren) verschijnen. De onbewerkte gegevens worden nooit door menselijke ogen gezien.
De bijdragers weten precies waar ze mee akkoord gaan, en ze kunnen worden beloond voor deelname op een manier die is afgestemd op hoe waardevol hun specifieke gegevens daadwerkelijk zijn. Het is een heel andere relatie tussen data-eigenaren en AI-systemen.
Maar waarom zou je je hier druk over maken in plaats van met synthetische data?
Sommigen vragen zich misschien af: “Waarom zouden we ons druk maken over deze complexe opzet als we gewoon synthetische data kunnen genereren?”
Het antwoord is dat synthetische data een diversiteitsmoordenaar zijn. Per definitie versterkt het genereren van synthetische gegevens het midden van de belcurve. Als u een zeldzame medische aandoening heeft die slechts 0,01% van de bevolking treft, zal een synthetische datagenerator u waarschijnlijk afdoen als ‘ruis’.
Modellen die zijn getraind op synthetische data worden steeds slechter in het bedienen van uitschieters. PROPS lost dit op door een veilige manier te creëren voor echte mensen met zeldzame aandoeningen of unieke achtergronden om zich aan te melden. Het verandert het delen van gegevens van een privacyrisico in een ‘datamarktplaats’. waar waardevolle data de beloning krijgen die ze verdienen.
Het gaat niet alleen om training, gevolgtrekking is ook belangrijk
De meeste discussies richten zich op training, maar PROPS heeft een even interessante toepassing op het gebied van gevolgtrekkingen.
Als u tegenwoordig bijvoorbeeld een lening wilt krijgen, moet u veel documenten indienen: bankafschriften, loonstrookjes en belastingaangiften. In een op PROPS gebaseerd systeem stellen ze het gebruik van een Loan Decision Model (LDM) voor:
- U machtigt de LDM om rechtstreeks met uw bank te praten.
- De bank bevestigt uw saldo via een privacybeschermend orakel.
- De LDM neemt een besluit.
- Het resultaat? De kredietverstrekker krijgt een geverifieerd “Ja” of “Nee” zonder ooit uw privédocumenten aan te raken. Dit elimineert het risico op datalekken en maakt het bijna onmogelijk voor mensen om frauduleuze, gefotoshopte documenten te gebruiken.
Wat houdt dit eigenlijk tegen in 2026?
Het komt simpelweg neer op schaal en infrastructuur.
De meest robuuste versie van PROPS vereist dat training plaatsvindt in een door hardware ondersteunde, veilige enclave (zoals Intel SGX of NVIDIA’s H100 TEE’s). Deze werken goed op kleine schaal, maar om ze te laten werken voor de enorme GPU-clusters die nodig zijn voor frontier LLM’s is nog steeds een open technisch probleem. Er zijn enorme clusters nodig om in perfecte, gecodeerde synchronisatie te kunnen werken.
De onderzoekers zijn er duidelijk over: PROPS is nog geen eindproduct. Het is een overtuigend proof-of-concept. Tegenwoordig is er echter een lichtere versie inzetbaar. Zelfs zonder volledige hardwaregaranties kunt u systemen bouwen die gebruikers betekenisvolle zekerheid bieden, wat al een verbetering is ten opzichte van iemand vragen u een pdf te e-mailen.
Mijn eigen laatste gedachten
PROPS is niet echt een “nieuwe” technologie; het is een nieuwe toepassing van bestaande tools. Privacybeschermende orakels worden al jaren gebruikt in de blockchain- en Web3-ruimte (zoals Chainlink). Het inzicht hier is de erkenning dat dezelfde tools de AI-datacrisis kunnen oplossen.
De “datacrisis” is geen gebrek aan informatie; het is een gebrek aan vertrouwen. We hebben meer dan genoeg gegevens om de volgende generatie AI te bouwen, maar deze zitten opgesloten achter de deuren van het Deep Web. De slang hoeft zijn staart niet op te eten; het moet gewoon een betere tuin vinden.
👉 LinkedIn: Sabrine Bendimerad
👉 Medium: https://medium.com/@sabrine.bendimerad1
👉 Instagram: https://tinyurl.com/datailearn

