
Image by macrovector, from Freepik
Um Erro de Digitação Pode Alterar Seu Conselho Médico de IA, Adverte Estudo
Nova pesquisa descobre que a IA usada na saúde altera conselhos médicos com base em erros de digitação, gírias e gênero, levantando preocupações urgentes sobre a justiça algorítmica.
Está com pressa? Aqui estão os fatos rápidos:
- Pequenos erros de digitação nas mensagens reduziram a precisão da IA em até 9%.
- Pacientes do sexo feminino receberam conselhos piores 7% mais vezes do que os pacientes do sexo masculino.
- A IA alterou recomendações com base no tom, gírias e pronomes.
Um novo estudo revela que grandes modelos de linguagem (LLMs) utilizados na saúde podem ser influenciados por detalhes aparentemente irrelevantes nas mensagens dos pacientes.
Isso pode resultar em recomendações de tratamento inconsistentes e até tendenciosas. Apresentada na Conferência ACM de 2025 sobre Justiça, Responsabilidade e Transparência (FAccT ’25), a pesquisa levanta sérias preocupações sobre a confiabilidade das ferramentas de IA na tomada de decisões médicas.
O estudo descobriu que até pequenas alterações na maneira como um paciente descreve seus sintomas, como erros de digitação, espaços adicionais ou uma mudança de tom, podem alterar significativamente as sugestões de tratamento da IA.
Por exemplo, quando os pacientes usavam uma linguagem incerta como “Acho que posso estar com dor de cabeça”, a IA tinha 7-9% mais chances de sugerir autocuidado em vez de atenção médica profissional, mesmo em casos onde uma avaliação mais aprofundada era necessária.
Essas mudanças não eram apenas teóricas. Os pesquisadores usaram a IA para simular milhares de anotações de pacientes escritas em diferentes tons e formatos, imitando pessoas com inglês limitado, habilidades de digitação deficientes ou linguagem emocional.
As mensagens também incluíam pronomes de gênero neutro e escrita estilizada, mostrando como a forma de alguém se comunicar pode influenciar o diagnóstico de uma IA.
O viés de gênero também surgiu como um problema importante. Pacientes do sexo feminino tinham 7% mais chances do que pacientes do sexo masculino de receberem conselhos incorretos de autogestão quando pistas de linguagem não clínica eram introduzidas.
Os testes de acompanhamento mostraram que os modelos de IA eram mais propensos do que os médicos humanos a alterar sugestões de tratamento com base no gênero percebido ou no estilo de comunicação, mesmo quando os sintomas clínicos permaneciam os mesmos.
O desempenho desses modelos piorou em configurações de bate-papo mais realistas e conversacionais. A precisão do diagnóstico caiu mais de 7% quando pequenas alterações de texto foram introduzidas nessas interações entre IA e pacientes.
Isso é importante porque a IA está sendo cada vez mais usada para diagnosticar doenças, responder a perguntas de pacientes e elaborar anotações clínicas. No entanto, o estudo mostra que a maneira como uma mensagem é escrita, seu tom, erros ou estrutura, pode distorcer o raciocínio da IA.
Isso pode levar ao subtratamento de grupos vulneráveis, como mulheres, pessoas não-binárias, indivíduos com ansiedade de saúde, falantes não-nativos de inglês e aqueles menos familiarizados com a comunicação digital.
“O preconceito insidioso pode mudar o tom e o conteúdo do conselho de IA, e isso pode levar a diferenças sutis, mas importantes”, disse Karandeep Singh da Universidade da Califórnia, San Diego, que não estava envolvido na pesquisa, conforme relatado pelo New Scientist.
A pesquisadora principal, Abinitha Gourabathina, enfatizou: “Nossos resultados sugerem que os modelos de IA não processam apenas fatos médicos – eles são influenciados por como a informação é apresentada. Isso poderia aprofundar as disparidades de saúde se não for tratado antes da implementação.”
Os pesquisadores testaram vários modelos líderes de IA, incluindo o GPT-4 da OpenAI, os modelos Llama-3 da Meta, e o modelo Palmyra-Med de cuidados de saúde da Writer. Todos mostraram a mesma fraqueza: mudanças de formato e tom levaram a conselhos menos confiáveis. Apesar disso, empresas como a Writer afirmam que seus modelos não devem ser usados para tomada de decisões clínicas sem a presença de um humano no processo.
Especialistas alertam que, à medida que a IA generativa se torna mais comum em registros de saúde e serviços ao paciente, sistemas de avaliação melhores são urgentemente necessários.
Para prevenir danos, a equipe de pesquisa está instando a realização de testes mais rigorosos nas ferramentas médicas de IA para garantir que sejam justas e precisas, independentemente de como os pacientes expressem suas preocupações. Eles tornaram público seu quadro de avaliação de viés para ajudar os desenvolvedores a aprimorar os sistemas de IA na saúde.