Home Nieuws Desinformatiesites hanteren een opendeurbeleid voor AI-scrapers

Desinformatiesites hanteren een opendeurbeleid voor AI-scrapers

2
0
Desinformatiesites hanteren een opendeurbeleid voor AI-scrapers

AI modellen hebben een vraatzuchtige honger naar data. Het is een uitdaging om op de hoogte te blijven van de informatie die aan gebruikers moet worden gepresenteerd. En dus lijken bedrijven die voorop lopen op het gebied van AI een antwoord te hebben gevonden: voortdurend het web doorzoeken.

Maar website-eigenaren willen AI-bedrijven steeds vaker niet de vrije loop laten. Ze herwinnen dus de controle door de crawlers hard aan te pakken.

Om dit te doen gebruiken ze robots.txt, een bestand dat op veel websites wordt bewaard en dat fungeert als leidraad voor hoe webcrawlers hun inhoud wel of niet mogen scrapen. Oorspronkelijk ontworpen als een signaal aan zoekmachines over de vraag of een website wilde dat zijn pagina’s werden geïndexeerd of niet, is het in het AI-tijdperk steeds belangrijker geworden, omdat sommige bedrijven instructies zouden negeren.
In een nieuwe studieNicolas Steinacker-Olsztyn, een onderzoeker aan de Universiteit van Saarland en zijn collega’s analyseerden hoe verschillende websites robots.txt behandelden – en of er een verschil was tussen sites die als betrouwbaar en niet betrouwbaar werden beoordeeld, met name in termen van het al dan niet toestaan ​​van crawlen. Voor veel AI-bedrijven is het een soort ‘nu doen en later om vergeving vragen’-zaak’, zegt Steinacker-Olsztyn.
In het onderzoek werden ruim 4.000 sites gecontroleerd op hun reacties op 63 verschillende AI-gerelateerde user agents, waaronder GPTBot, ClaudeBot, CCBot en Google-Extended, die allemaal door AI-bedrijven worden gebruikt in hun poging om informatie op te zuigen.

De websites werden vervolgens verdeeld tussen gerenommeerde nieuwskanalen of sites met desinformatie, waarbij gebruik werd gemaakt van beoordelingen die waren opgesteld door Media Bias/Fact Check, een organisatie die nieuwsbronnen categoriseert op basis van hun geloofwaardigheid en de feitelijkheid van hun berichtgeving.

Op alle 4.000 beoordeelde sites blokkeerde ongeveer 60% van de sites die als gerenommeerde nieuwswebsites werden beschouwd, ten minste één AI-crawler de toegang tot hun informatie; van de desinformatiesites deed slechts 9,1% dit.

De gemiddelde gerenommeerde site blokkeert meer dan 15 verschillende AI-agenten via zijn robots.txt-bestand. Desinformatiesites daarentegen hebben de neiging om de crawlers helemaal niet buiten te sluiten.

“Het grootste voordeel is dat de gerenommeerde nieuwswebsites goed op de hoogte blijven van het evoluerende ecosysteem als het betrekking heeft op deze grote AI-ontwikkelaars en hun praktijken”, zegt Steinacker-Olsztyn.

In de loop van de tijd wordt de kloof tussen degenen die bereid zijn bots hun sites te laten crawlen en degenen die dat niet doen, steeds groter. Van september 2023 tot mei 2025 is het aandeel platforms dat crawlers buitensluit gestegen van 23% naar 60%, terwijl het aandeel sites dat desinformatie verspreidt stabiel blijft, zo blijkt uit het onderzoek.

Het resultaat, zegt Steinacker-Olsztyn, is dat minder gerenommeerde inhoud wordt opgezogen en vervolgens uitgespuugd uit AI-modellen die routinematig door honderden miljoenen mensen worden gebruikt. “Deze modellen worden steeds vaker ook gewoon gebruikt voor het ophalen van informatie, ter vervanging van traditioneel gebruikte opties zoals zoekmachines of Google”, voegt Steinacker-Olsztyn toe.

Het raadsel over legitieme gegevens

Om ervoor te zorgen dat AI-modellen op de hoogte blijven van de actualiteit, worden ze getraind op gerenommeerde sites, en dat is precies wat deze sites niet willen.

De oorlog over auteursrecht en toegang tot trainingsgegevens tussen AI-bedrijven en nieuwssites mondt steeds meer uit in de rechtbanken –De Die van de New York Times rechtszaak tegen OpenAI, de makers van bijvoorbeeld ChatGPT, ging door vorige week.

Deze rechtszaken zijn ingegeven door beschuldigingen dat AI-bedrijven illegaal gegevens op nieuwswebsites verzamelen om te dienen als regelmatig bijgewerkte, op de waarheid gebaseerde trainingsgegevens voor de modellen die hun AI-chatbots aandrijven. Naast het procederen over hun geschillen blokkeren gerenommeerde nieuwswebsites AI-crawlers.

Dat is goed voor hun bedrijven en rechten. Maar Steinacker-Olsztyn maakt zich zorgen over de bredere impact. “Als gerenommeerd nieuws deze informatie in toenemende mate onbeschikbaar maakt, geeft dit reden om aan te nemen dat dit de betrouwbaarheid van deze modellen kan aantasten”, legt hij uit. “In de toekomst verandert dit het percentage legitieme gegevens waartoe ze toegang hebben.”

In essentie: het maakt voor een AI-crawler niet uit of hij kijkt De New York Times of een desinformatiewebsite uit Hoboken. Het zijn allebei trainingsgegevens, en als de ene gemakkelijker toegankelijk is dan de andere, is dat het enige dat telt.

Niet iedereen is zo zeker van de negatieve impact van het blokkeren van crawlers.

Felix Simon, A onderzoekscollega op het gebied van AI en digitaal nieuws aan het Reuters Institute for the Study of Journalism van de Universiteit van Oxford, zegt dat hij niet verbaasd was toen hij hoorde dat sites die verkeerde informatie verhandelen, gecrawld zouden willen worden, “terwijl traditionele uitgevers op dit moment een stimulans hebben om dergelijk schrapen te voorkomen.” Sommige van deze traditionele uitgevers, zo voegt hij eraan toe, laten nog steeds enige schrammen toe “om een ​​overvloed aan redenen.”

Simon waarschuwt ook dat het feit dat desinformatiesites vaker hun deuren openen voor AI-crawlers, dit niet noodzakelijkerwijs betekent dat ze de informatieruimte zo vervuilen als we misschien vrezen.

“AI-ontwikkelaars filteren en wegen gegevens op verschillende punten van het systeemtrainingsproces en op het moment van inferentie”, zegt hij. “Je zou hopen dat AI-ontwikkelaars op dezelfde manier waarmee de auteurs onbetrouwbare websites hebben kunnen identificeren, dergelijke gegevens kunnen filteren.”

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in