
Image by AbsolutVision, from Unsplash
Editoras Bloqueiam Bots de IA para Proteger Conteúdo
As editoras de notícias continuam a lutar contra os bots de IA, processando empresas de tecnologia, alertando que a raspagem representa perigos para o jornalismo, sistemas de compensação justos, bem como para o futuro da web aberta.
Está com pressa? Aqui estão os fatos rápidos:
- Ferramentas de IA como o ChatGPT reduzem o tráfego para sites de notícias.
- A Cloudflare lançou ferramentas para ajudar a bloquear scrapers de IA não autorizados.
- Reddit e iFixit processaram ou bloquearam empresas de IA como a Anthropic.
Em um novo relatório do The Wall Street Journal (WSJ), editoras de notícias estão combatendo empresas de IA que raspam seus sites em busca de conteúdo sem compensação. À medida que ferramentas de IA como o ChatGPT e o Gemini do Google crescem, muitas empresas de mídia estão tentando bloquear bots que usam seu trabalho sem permissão.
“Você quer humanos lendo o seu site, não bots, especialmente bots que não estão retornando nenhum valor para você”, disse Nicholas Thompson, CEO da The Atlantic, que tem um acordo de licenciamento com a OpenAI, mas planeja bloquear outras empresas de IA, conforme relatado pelo WSJ.
Essa tática, conhecida como “scraping”, existe desde os primeiros dias do Google. Naquela época, os motores de busca direcionavam tráfego para os sites dos editores. Agora, os chatbots de IA permitem resumos de notícias que redirecionam os leitores para longe de visitar suas fontes originais. A combinação da redução de tráfego impulsionada por bots e a diminuição da receita de publicidade se tornou um problema comum para inúmeros editores.
Para contra-atacar, editoras estão recorrendo a empresas de tecnologia como a Cloudflare, que recentemente lançou ferramentas para permitir que os sites controlem se os bots de IA podem acessar o conteúdo. O CEO da Dotdash Meredith, Neil Vogel, cuja empresa também licencia conteúdo para a OpenAI, disse: “As pessoas que criam propriedade intelectual precisam ser protegidas, ou ninguém mais criará propriedade intelectual”, conforme relatado pelo WSJ.
Algumas empresas, como Reddit e iFixit, tomaram medidas legais. Reddit processou a empresa de IA Anthropic por fazer scraping mais de 100.000 vezes, apesar dos pedidos para parar. A iFixit disse que a Anthropic atingiu seus servidores um milhão de vezes em um único dia.
A briga também está se desenrolando no tribunal. O New York Times está processando a Microsoft e a OpenAI, enquanto a News Corp e suas subsidiárias estão enfrentando a Perplexity. A BBC também ameaçou tomar ações legais contra a startup de IA Perplexity, acusando-a de fazer scraping de seu conteúdo para treinar seu modelo padrão.
Enquanto isso, alguns temem que regras mais rigorosas contra o scraping possam bloquear usos legítimos, como a pesquisa acadêmica, conforme observado pelo WSJ.
Como Shayne Longpre da Iniciativa de Proveniência de Dados alertou, “A web está sendo dividida para o maior licitante. Isso é realmente ruim para a concentração do mercado e abertura”, conforme relatado pelo WSJ.