In de loop van 2025 zal deepfakes dramatisch verbeterd. AI-gegenereerde gezichten, stemmen en volledige lichaamsuitvoeringen die echte mensen nabootsen, zijn in kwaliteit toegenomen, veel verder dan wat zelfs veel experts een paar jaar geleden hadden verwacht. Ze werden ook steeds vaker gebruikt om mensen te misleiden.
Voor veel alledaagse scenario’s – vooral videogesprekken met een lage resolutie en media die worden gedeeld op sociale-mediaplatforms – is het realisme nu hoog genoeg om niet-deskundige kijkers op betrouwbare wijze voor de gek te houden. In de praktijk zijn synthetische media voor gewone mensen en in sommige gevallen zelfs voor instellingen niet meer te onderscheiden van authentieke opnames.
En deze stijging beperkt zich niet tot de kwaliteit. Het aantal deepfakes is explosief gegroeid: cybersecuritybedrijf Diepe aanval schat een stijging in van ongeveer 500.000 online deepfakes in 2023 naar ongeveer 8 miljoen in 2025, met een jaarlijkse groei van bijna 900%.
Ik ben een computerwetenschapper die doet onderzoek naar deepfakes en andere synthetische media. Vanuit mijn gezichtspunt zie ik dat de situatie zo is waarschijnlijk erger worden in 2026, omdat deepfakes synthetische artiesten worden die in realtime op mensen kunnen reageren.
Bijna iedereen kan nu een deepfake-video maken.
Dramatische verbeteringen
Verschillende technische verschuivingen liggen ten grondslag aan deze dramatische escalatie. Ten eerste heeft het videorealisme een aanzienlijke sprong voorwaarts gemaakt, dankzij modellen voor het genereren van video’s die speciaal daarvoor zijn ontworpen behoud van temporele consistentie. Deze modellen produceren video’s met een samenhangende beweging, een consistente identiteit van de geportretteerde mensen en inhoud die van het ene frame naar het andere zinvol is. De modellen ontwarren de informatie die verband houdt met het representeren van iemands identiteit en de informatie over beweging, zodat dezelfde beweging kan plaatsvinden gekoppeld aan verschillende identiteitenof dezelfde identiteit kan meerdere soorten bewegingen hebben.
Deze modellen produceren stabiele, samenhangende gezichten zonder de flikkering, kromtrekken of structurele vervormingen rond de ogen en kaaklijn die ooit dienden als betrouwbaar forensisch bewijs van deepfakes.
Ten tweede heeft het klonen van stemmen de ‘niet te onderscheiden drempel’ overschreden. Een paar seconden audio zijn nu voldoende om een overtuigende kloon-compleet met natuurlijke intonatie, ritme, nadruk, emotie, pauzes en ademgeluid. Deze mogelijkheid werkt nu al grootschalige fraude in de hand. Sommige grote retailers melden ontvangst meer dan 1.000 door AI gegenereerde zwendeloproepen per dag. De perceptuele verhalen die ooit synthetische stemmen weggaven, zijn grotendeels verdwenen.
Ten derde hebben consumenteninstrumenten de technische barrière bijna tot nul teruggebracht. Upgrades van OpenAI’s Soera 2 en die van Google Ik zie er 3 en een golf van startups betekent dat iedereen een idee kan beschrijven, een groot taalmodel zoals OpenAI’s ChatGPT of Google’s Gemini een script kan laten opstellen, en genereer binnen enkele minuten gepolijste audiovisuele media. AI-agenten kunnen het hele proces automatiseren. Het vermogen om op grote schaal coherente, verhaallijngedreven deepfakes te genereren is effectief gedemocratiseerd.
Deze combinatie van stijgende aantallen en persona’s die bijna niet te onderscheiden zijn van echte mensen, creëert ernst uitdagingen bij het opsporen van deepfakesvooral in een mediaomgeving waar de aandacht van mensen gefragmenteerd is en de inhoud sneller beweegt dan kan worden geverifieerd. Er is al schade in de echte wereld aangericht verkeerde informatie naar gerichte intimidatie En financiële oplichting– mogelijk gemaakt door deepfakes die zich verspreiden voordat mensen de kans hebben om te beseffen wat er gebeurt.
AI-onderzoeker Hany Farid legt uit hoe deepfakes werken en hoe goed ze worden.
De toekomst is realtime
Vooruitkijkend is het traject voor volgend jaar duidelijk: deepfakes evolueren in de richting van realtime synthese die video’s kan produceren die sterk lijken op de nuances van het uiterlijk van een mens, waardoor het voor hen gemakkelijker wordt om detectiesystemen te omzeilen. De grens verschuift van statisch visueel realisme naar temporele en gedragsmatige samenhang: modellen die dat doen live of bijna-live inhoud genereren in plaats van vooraf gerenderde clips.
Identiteitsmodellering convergeert naar uniforme systemen die niet alleen vastleggen hoe een persoon eruit ziet, maar ook hoe hij/zij is bewegen, klinken en spreken in verschillende contexten. Het resultaat gaat verder dan ‘dit lijkt op persoon X’, maar ‘dit gedraagt zich in de loop van de tijd als persoon X’. Ik verwacht dat volledige deelnemers aan videogesprekken in realtime worden samengevoegd; interactieve AI-gestuurde acteurs wier gezichten, stemmen en maniertjes zich onmiddellijk aanpassen aan een prompt; en oplichters die responsieve avatars inzetten in plaats van vaste video’s.
Naarmate deze mogelijkheden volwassener worden, zal de perceptiekloof tussen synthetische en authentieke menselijke media steeds kleiner worden. De betekenisvolle verdedigingslinie zal wegschuiven van het menselijk oordeel. In plaats daarvan zal het afhangen van bescherming op infrastructuurniveau. Deze omvatten veilige herkomst, zoals cryptografisch ondertekende media, en AI-inhoudstools die gebruik maken van de Coalitie voor herkomst en authenticiteit van inhoud specificaties. Het zal ook afhangen van multimodale forensische hulpmiddelen zoals die van mijn laboratorium Deepfake-o-Meter.
Simpelweg beter naar pixels kijken is niet langer voldoende.
Siwei Lyu is hoogleraar computerwetenschappen en techniek en directeur van het UB Media Forensic Lab aan de Universiteit van New York Universiteit van Buffalo.
Dit artikel is opnieuw gepubliceerd van Het gesprek onder een Creative Commons-licentie. Lees de origineel artikel.


