Image by Marco Verch, from Unsplash
Perplexidade Acusada de Vasculhar Sites Ilegalmente com Bots Ocultos
A Cloudflare acusou o mecanismo de respostas de IA, Perplexity, de usar técnicas furtivas para rastrear sites contra a vontade deles, levantando preocupações sobre privacidade de dados e confiança online.
Está com pressa? Aqui estão os fatos rápidos:
- Cloudflare removeu Perplexity da lista de bots verificados.
- Testes mostraram que Perplexity acessou sites privados e restritos.
- Bots não declarados imitam o Chrome e rotacionam IPs para evitar detecção.
Em um detalhado relatório, a Cloudflare afirma que a Perplexity está “modificando seu agente do usuário e alterando seus ASNs de origem para esconder sua atividade de rastreamento”, mesmo quando os sites bloqueiam explicitamente isso por meio de ‘robots.txt’ e regras de firewall.
A Cloudflare identifica esse comportamento como uma violação dos padrões da web, o que os levou a remover a Perplexity de sua lista de bots verificados.
A Cloudflare desenvolveu sites privados sem restrições de rastreamento para testar os métodos da Perplexity. A empresa descobriu que a Perplexity continuou fornecendo informações completas sobre essas páginas, apesar das regras de não rastreamento.
“Esta resposta foi inesperada, pois havíamos tomado todas as precauções necessárias para evitar que esses dados fossem recuperáveis pelos seus rastreadores”, disse a Cloudflare.
A investigação mostrou que os bots oficiais da Perplexity usavam uma identidade de navegador falsa que imitava o Google Chrome para contornar as proteções quando eram bloqueados. Esses rastreadores furtivos faziam de 3 a 6 milhões de solicitações diárias, alternando através de IPs desconhecidos e disfarçando sua origem.
Em contraste, a Cloudflare elogiou a OpenAI por seguir boas práticas de comportamento na web. Quando testado sob as mesmas condições, “ChatGPT-User buscou o arquivo de robôs e parou de rastrear quando isso foi desautorizado.”
A Cloudflare diz que atualizou seus sistemas de proteção para detectar e bloquear os rastreadores ocultos da Perplexity. Eles também estão instando os operadores de bots a serem mais transparentes e a seguir práticas éticas na web.
“Existem preferências claras de que os rastreadores devem ser transparentes, ter um propósito claro, realizar uma atividade específica e, o mais importante, seguir as diretrizes e preferências do site”, afirmou a Cloudflare.
ArsTechnica observa que a Cloudflare não está sozinha em chamar atenção para as táticas da Perplexity. O CEO do Reddit, Steve Huffman, descreveu o bloqueio da Perplexity, Microsoft e Anthropic como “uma verdadeira dor de cabeça” porque eles tratavam todo o conteúdo online como um jogo justo.
Recentemente, a BBC também ameaçou tomar medidas legais, acusando a Perplexity de raspar seu site para treinar seu modelo de IA padrão sem permissão.
ArsTechnica também observa que Forbes e Wired acusaram a Perplexity de plágio. A Wired relatou que a empresa ignorou as restrições de robots.txt enquanto usava endereços IP suspeitos e ocultava seu bot para evitar medidas de bloqueio.
Com as empresas de IA buscando cada vez mais dados de treinamento, a disputa sobre quem controla o conteúdo online está se acirrando. A iniciativa da Cloudflare destaca o crescente retrocesso de editoras e plataformas que buscam proteger seus limites digitais.