- Een groeiend aantal grote nieuwssites blokkeert de Wayback Machine
- Daartoe behoren naar verluidt 23 organisaties die voorkomen dat hun inhoud in het archief verschijnt
- Dit gebeurt vanwege de vrees dat de Wayback Machine wordt uitgebuit voor het schrapen van AI-inhoud
De Wayback Machine wordt ernstig bedreigd (en niet voor de eerste keer), omdat een groeiend aantal grote nieuwswebsites het archiveringssysteem lijkt te blokkeren.
Als u niet bekend bent met de Wayback Machine: deze wordt beheerd door het non-profit Internet Archive en is in wezen een tijdmachine die de geschiedenis van het internet bijhoudt (en nog veel meer). Dit kan van groot belang zijn als het bijvoorbeeld gaat om historisch onderzoek of het monitoren van wijzigingen aan websites.
Zoals Wired meldt (via 9 tot 5 Mac), is er een groeiende trend dat online nieuwsmedia de webcrawler blokkeren die het Internet Archive gebruikt om snapshots te verzamelen. Volgens Originality AI (gespecialiseerd in AI-detectie) doen inmiddels zo’n 23 grote nieuwssites dit.
Artikel gaat hieronder verder
Dat geldt ook voor de New York Times (gebaseerd op een Nieman Lab-rapport) en USA Today, waarbij Wired benadrukt dat laatstgenoemde onlangs een rapport heeft gepubliceerd over hoe de Amerikaanse Immigrations and Customs Enforcement de openbaarmaking van belangrijke informatie over de impact van het detentiebeleid heeft vertraagd. Dit was een stuk waarin de Wayback Machine uitgebreid werd gebruikt bij zijn onderzoek.
De ironie van het feit dat USA Today deze gegevens op een dergelijke manier gebruikt en toch de Wayback Machine de toegang tot zijn eigen inhoud blokkeert – wat de nieuwssite zelf in de toekomst eerlijk zou kunnen houden – gaat niet verloren aan Wayback Machine-directeur Mark Graham.
Graham vertelde Wired: “Ze kunnen hun verhaalonderzoek samenbrengen omdat de Wayback Machine bestaat. Tegelijkertijd blokkeren ze de toegang.”
Als steeds meer organisaties de Wayback Machine gaan blokkeren, zal het vermogen om een historisch overzicht van online-inhoud bij te houden steeds verder worden uitgehold.
Analyse: geef AI (opnieuw) de schuld
Dus waarom gebeurt dit? Dit gaat niet over lezers die inhoud met een betaalmuur omzeilen met behulp van de Wayback Machine, voor het geval je dacht dat dit het probleem was. Zou het je verbazen als je hoort dat het eigenlijk om AI gaat, maar dan via een omweg? Natuurlijk niet, en op een voorspelbare manier lijkt het erop dat het internetarchief verstrikt is geraakt in de brede reactie tegen AI hier.
Waar deze nieuwsorganisaties naar eigen zeggen bezwaar tegen hebben, is niet een historisch verslag van de inhoud die wordt bijgehouden, maar het feit dat dit archief door externe AI-bedrijven kan worden gebruikt om hun modellen (LLM’s) te trainen.
Zoals Wired opmerkt, zei Graham James, woordvoerder van de New York Times: “Het probleem is dat Times-inhoud op het internetarchief door AI-bedrijven wordt gebruikt in strijd met de auteursrechtwetgeving om rechtstreeks met ons te concurreren.”
Kortom, de zorg voor deze bedrijven is dat ze dergelijke AI-scraping-activiteiten misschien zelf kunnen blokkeren, maar dit zal nog steeds achter hun rug om gebeuren via de Wayback Machine. Het zijn niet alleen de grote nieuwskanalen die deze zorgen hebben, maar ook sociale-mediaplatforms, met name Reddit, die de webcrawler van de Wayback Machine heeft geblokkeerd vanwege exact dezelfde zorgen.
Hoewel er andere mogelijke bronnen en manieren zijn om indirect nieuwsinhoud te schrapen, is de Wayback Machine het meest voor de hand liggende doelwit voor malafide AI-operators, omdat deze zo’n uitgebreide bibliotheek met webgeschiedenis bijhoudt.
Dit is dus een complexe kwestie die verband houdt met AI-scraping en een heleboel grijze gebieden in termen van de legaliteit daarin. Het effect op wat een belangrijk hulpmiddel is om regeringen of mediagiganten in de gaten te houden – en hen verantwoordelijk te houden voor wat er in het verleden is gezegd, of wat in sommige gevallen volledig van het internet is verwijderd – is duidelijk zorgwekkend.
Graham beweert dat: “Het lijdt geen twijfel dat de algemene afsluiting van een steeds groter deel van het publieke web van invloed is op het vermogen van de samenleving om te begrijpen wat er in onze wereld gebeurt.”
Er is een petitie opgesteld met de titel ‘Journalisten juichen de rol van het internetarchief toe bij het bewaren van openbare documenten’ en is verzonden met meer dan 100 handtekeningen van werkende journalisten. Ondertussen blijft er een dialoog gaande tussen het Internetarchief en de genoemde nieuwsuitgevers, dus de hoop op het vinden van een werkbare oplossing is nog niet verloren.

De beste computers voor elk budget
Volg TechRadar op Google Nieuws En voeg ons toe als voorkeursbron om ons deskundig nieuws, recensies en meningen in uw feeds te krijgen. Klik dan zeker op de knop Volgen!
En dat kan natuurlijk ook Volg TechRadar op TikTok voor nieuws, recensies, unboxings in videovorm en ontvang regelmatig updates van ons WhatsAppen te.



