Media impedem IA de aceder a ficheiros na Internet

Cerca de 245 organizações de notícias, em nove países, estão a tentar bloquear os rastreadores do Internet Archive (Wayback Machine).
O arquivo reúne mais de um bilião de páginas desde 1996, incluindo artigos de grandes meios como Times, CNN, The Guardian e USA Today.
As páginas arquivadas são usadas como fontes históricas e para verificar alterações em conteúdos publicados.
Empresas de IA utilizam conteúdos arquivados para treinar modelos, o que tem levado a pedidos de bloqueio ou limitação de acesso.
O Internet Archive afirma ter adotado medidas para reduzir abusos, enquanto algumas organizações pedem cooperação para soluções que não impliquem bloqueio total.

Cerca de 245 organizações de notícias, em nove países, estão a tentar bloquear os rastreadores do Internet Archive, usados pela Wayback Machine para capturar conteúdos de páginas web. A ação visa impedir a recolha automatizada de artigos para fins de IA, alegando uso indevido de conteúdos protegidos por direitos de autor.

O arquivo reúne mais de um bilião de páginas desde 1996, incluindo artigos de grandes meios como CNN, The New York Times, The Guardian e USA Today. Os conteúdos servem como fontes históricas ou para confirmar alterações pós-publicação.

Várias organizações protestam contra a utilização dos textos para treinar grandes modelos de linguagem, sem remuneração ou autorização. O rastreio é feito pelo ia_archiverbot, principal bot da Wayback Machine, segundo a Originality AI.

Alvos e alcance

A USA Today Co concentra uma parte significativa das publicações que bloqueiam o bot. Assim, centenas de jornais locais ficam invisíveis nos registos históricos, complicando pesquisas de arquivo para algumas redações.

Os dados arquivados, com URL e API, são vistos como valiosos para treinar IA, dada a qualidade e a datação dos textos e imagens. Isto facilita o acesso de empresas de IA aos conteúdos arquivados.

Isto levanta questões sobre direitos de autor, já que algumas organizações processam empresas de IA por possível violação. O Times, citado por veículos especializados, afirma que o conteúdo do Internet Archive tem sido usado sem autorização para competir com o jornalismo original.

A posição das organizações e da plataforma

Algumas redações adotam uma abordagem mais restritiva do que o bloqueio total. O Internet Archive vê o bloqueio como consequência indireta das ações das IA. A plataforma já fez ajustes, como impedir downloads em grande escala e limitar extração automatizada.

O archivista Mark Graham defende que a preservação histórica é essencial para evitar edições não autorizadas de artigos. A Wayback Machine continua a monitorizar alterações em registos arquivados.

Foi discutida a possibilidade de soluções aceitáveis que reduzam o acesso não autorizado, em vez de bloqueios totais. O Fight for the Future reuniu uma petição com o apoio de jornalistas em atividade para contestar as restrições.