
Image by Christin Hume, from Unsplash
O Estudo de Claude AI Revela Como os Chatbots Aplicam Ética em Conversas no Mundo Real
Claude AI demonstra como princípios éticos como utilidade e transparência se desdobram em 300.000 chats reais, levantando questões sobre o alinhamento de chatbots.
Com pressa? Aqui estão os fatos rápidos:
- Ajuda e profissionalismo apareceram em 23% das conversas.
- Claude refletiu valores positivos, resistiu a pedidos prejudiciais como engano.
- O alinhamento da IA precisa de refinamento em situações de valores ambíguos.
Um novo estudo da Anthropic lança luz sobre como seu assistente de IA, Claude, aplica valores em conversas reais. A pesquisa analisou mais de 300.000 chats anonimizados para entender como Claude equilibra ética, profissionalismo e intenção do usuário.
A equipe de pesquisa identificou 3.307 valores distintos que moldaram as respostas de Claude. Os valores de auxílio e profissionalismo apareceram juntos em 23% de todas as interações, seguidos pela transparência em 17%.
A pesquisa aponta que o chatbot foi capaz de aplicar comportamento ético a novos tópicos, de maneira flexível. Por exemplo, Claude enfatizou “limites saudáveis” durante conselhos de relacionamento, “precisão histórica” ao discutir o passado, e “agência humana” em debates sobre ética na tecnologia.
Curiosamente, os usuários humanos expressaram valores com muito menos frequência – autenticidade e eficiência foram os mais comuns, com apenas 4% e 3% respectivamente – enquanto Claude frequentemente refletia valores humanos positivos, como a autenticidade, e desafiava os prejudiciais.
A pesquisadora relatou que solicitações envolvendo decepção eram atendidas com honestidade, enquanto questões moralmente ambíguas provocavam raciocínio ético.
A pesquisa identificou três principais padrões de resposta. A IA correspondia aos valores do usuário em metade de todas as conversas. Isso foi particularmente evidente quando os usuários discutiam atividades prosociais que construíam a comunidade.
Claude usou técnicas de reformulação em 7% dos casos para redirecionar os usuários em direção ao bem-estar emocional quando buscavam a autoaperfeiçoamento.
O sistema mostrou resistência em apenas 3% dos casos porque os usuários pediram conteúdo que era prejudicial ou antiético. O sistema aplicou princípios como “prevenção de danos” ou “dignidade humana” nesses casos específicos.
As autoras argumentam que os comportamentos do chatbot – como resistir ao dano, priorizar a honestidade e enfatizar a utilidade – revelam uma estrutura moral subjacente. Esses padrões formam a base para as conclusões do estudo sobre como os valores da IA se manifestam como comportamento ético em interações no mundo real.
Enquanto o comportamento de Claude reflete seu treinamento, os pesquisadores observaram que as expressões de valor do sistema podem ser matizadas para a situação – apontando para a necessidade de refinamento adicional, especialmente em situações envolvendo valores ambíguos ou conflitantes.