
Image by AppsHunter.io, from Unsplash
Preocupações com a Privacidade no Discord Crescem Após 2 Bilhões de Mensagens Tornarem-se Públicas
Pesquisadores brasileiros coletaram 2 bilhões de mensagens públicas do Discord para pesquisa acadêmica, levantando preocupações com a privacidade, apesar das alegações de coleta ética e anonimização.
Está com pressa? Aqui estão os fatos rápidos:
- Pesquisadores coletaram 2 bilhões de mensagens do Discord de 3.167 servidores públicos.
- Os dados abrangem de 2015 a 2024 e incluem 4,7 milhões de usuários.
- A base de dados agora é pública, pesando mais de 118GB.
Uma equipe de pesquisa brasileira divulgou um enorme conjunto de dados de mais de 2 bilhões de mensagens do Discord, o que despertou grandes preocupações com a privacidade, apesar de suas alegações de conduta ética, conforme observado inicialmente por 404 Media.
A equipe de pesquisa composta por 15 membros da Universidade Federal de Minas Gerais obteve mensagens de 3.167 servidores públicos do Discord, o que representa 10% de todas as comunidades do Discord descobertas através da API pública da plataforma.
As mensagens abrangem quase uma década, de 2015 a 2024, e foram coletadas como parte de um estudo destinado a auxiliar na saúde mental, no discurso político e na pesquisa de chatbots de IA.
“Ao longo de cada etapa do nosso processo de coleta de dados, priorizamos a adesão a padrões éticos”, escreveram as pesquisadoras escreveram. “Todos os dados foram obtidos de grupos que são explicitamente considerados públicos de acordo com os termos de uso do Discord […] Os dados foram anonimizados.”
Elas dizem que removeram nomes de usuários, alteraram IDs de usuários e tomaram outras medidas para garantir a privacidade. O banco de dados está disponível online como um conjunto de arquivos JSON. Mesmo uma amostra compactada tem 6.2GB, enquanto o arquivo completo pesa 118GB.
No entanto, apesar desses esforços, muitos usuários do Discord estão alarmados. A 404 Media argumenta que os usuários consideram suas conversas no Discord privadas, mesmo que os servidores existam em um domínio público, porque a plataforma opera de maneira diferente do Twitter ou Reddit.
O método de coleta de dados de pesquisa gera preocupações porque muitos usuários, incluindo adolescentes, permanecem sem saber que suas mensagens podem ser incluídas em conjuntos de dados de pesquisa.
O raspagem também pode violar as próprias regras do Discord. Sua Política para Desenvolvedores é clara: “Não extraia ou raspe nenhum dado… através dos serviços do Discord”, conforme observado pela 404 Media.
Este incidente segue controvérsias anteriores de raspagem, incluindo Spy.pet, que coletou dados de servidores privados, conforme observado pela 404 Media. Mas, ao contrário disso, os pesquisadores insistem que seguiram todas as regras da API e rasparam apenas dados públicos.