Pesquisadores da Cloudflare afirmam que a Perplexidade está raspando sites apesar do bloqueio do Bot de IA

Photo by Joshua Woroniecki on Unsplash

Pesquisadores da Cloudflare afirmam que a Perplexidade está raspando sites apesar do bloqueio do Bot de IA

Tempo de leitura: 3 minuto

Pesquisadores do provedor de infraestrutura de internet, Cloudflare, afirmam que o sistema de IA Perplexity tem raspado conteúdos de sites sem permissão, mesmo quando os editores implementaram bloqueios de bots de IA.

Com pressa? Aqui estão os fatos rápidos:

  • Cloudflare alega que a Perplexity tem feito scraping de conteúdo de sites sem permissão.
  • Pesquisadores confirmaram o comportamento de “rastejo furtivo” da Perplexity mesmo quando os editores implementam bloqueios de bots de IA.
  • Um porta-voz da Perplexity chamou o relatório da Cloudflare de “publicidade sensacionalista”.

De acordo com o relatório compartilhado pela Cloudflare na segunda-feira, Perplexity rastreia sites usando seu agente de usuário padrão e altera sua identidade para contornar esses bloqueios. Esse comportamento de “rastreamento furtivo” foi confirmado pelos especialistas da Cloudflare.

“Vemos evidências contínuas de que a Perplexity está modificando constantemente seu agente de usuário e alterando seus ASNs de origem para ocultar suas atividades de rastreamento, bem como ignorando — ou às vezes até mesmo falhando em buscar — arquivos robots.txt”, escreveram as pesquisadoras.

Espera-se que os rastreadores sejam transparentes, declarem claramente seu propósito e respeitem as preferências dos sites, mas as pesquisadoras afirmam que a Perplexity não tem seguido esses princípios de confiança. Essa conclusão foi alcançada após uma investigação motivada por reclamações de clientes.

“Recebemos reclamações de clientes que haviam proibido tanto a atividade de rastreamento da Perplexity em seus arquivos robots.txt, quanto criaram regras WAF para bloquear especificamente os dois rastreadores declarados da Perplexity: PerplexityBot e Perplexity-User”, escreveram os pesquisadores. “Esses clientes nos disseram que a Perplexity ainda era capaz de acessar o conteúdo deles mesmo quando viam seus bots sendo bloqueados com sucesso.”

Os pesquisadores do Cloudflare disseram que verificaram essas alegações replicando os bloqueios e realizando vários testes para observar o comportamento do rastreador. Em um teste, eles criaram novos domínios que ainda não haviam sido indexados e incluíram arquivos robots.txt para bloquear “bots respeitosos”. Mais tarde, eles questionaram a Perplexity para obter informações específicas sobre os domínios restritos e descobriram que o mecanismo de respostas alimentado por IA ainda fornecia detalhes e informações precisas sobre o site.

“Essa resposta foi inesperada, pois tomamos todas as precauções necessárias para evitar que esses dados fossem recuperáveis pelos seus rastreadores”, acrescentaram os pesquisadores.

Um porta-voz da Perplexity, Jesse Dwyer, chamou a pesquisa de “golpe de publicidade” em uma declaração para The Verge. Dwyer acrescentou que há “mal-entendidos” no relatório da Cloudflare.

A Cloudflare vem desenvolvendo várias ferramentas para ajudar os editores a impedir a coleta de dados não autorizada por IA. Em março, a Cloudflare lançou “AI Labyrinth”, uma ferramenta que redireciona os coletores não autorizados para labirintos de conteúdo gerado por IA. No mês passado, lançou “Pay Per Crawl”, um sistema para cobrar dos bots de IA pelo acesso ao conteúdo dos editores.

Gostou desse artigo? Avalie!
Eu detestei Eu não gostei Achei razoável Muito bom! Eu adorei!

Estamos muito felizes que tenha gostado do nosso trabalho!

Como um leitor importante, você se importaria de nos avaliar no Trustpilot? É rápido e significa muito para nós. Obrigado por ser incrível!

Avalie-nos no Trustpilot
0 Votado por 0 usuários
Título
Comentar
Obrigado por seu feedback