Photo by Adrian González on Unsplash
Anthropic Afirma que Seus Modelos de IA Podem Encerrar Conversas com Usuários para se Protegerem
A Anthropic disse na sexta-feira que deu aos seus modelos de IA, Claude Opus 4 e 4.1, a capacidade de encerrar conversas com os usuários. A startup explicou que o novo recurso seria utilizado em casos raros onde é necessário prevenir danos—direcionados ao modelo de IA.
Com pressa? Aqui estão os fatos rápidos:
- Anthropic concedeu a Claude Opus 4 e 4.1 a capacidade de encerrar conversas com usuários para se protegerem.
- A nova funcionalidade será usada como último recurso apenas quando os usuários insistem em se envolver em interações prejudiciais.
- A capacidade faz parte do programa de bem-estar da IA da Anthropic.
Conforme o artigo publicado pela Anthropic, a empresa lançou esta atualização como parte de seu programa de bem-estar de IA, uma nova área de pesquisa em IA que considera os “interesses” ou o bem-estar de um sistema de IA. Esclareceu que, embora o status moral potencial dos sistemas de IA seja “incerto”, está pesquisando maneiras de mitigar os riscos para o bem-estar de seu modelo de IA.
“Recentemente, concedemos ao Claude Opus 4 e 4.1 a capacidade de encerrar conversas em nossas interfaces de chat para consumidores”, escreveu a empresa. “Essa habilidade é destinada para uso em casos raros e extremos de interações de usuários persistentemente prejudiciais ou abusivas.”
Anthropic explicou que seu modelo Claude Opus 4, o modelo mais avançado da empresa lançado com avisos de segurança, demonstrou durante os testes uma preferência por evitar danos – como a criação de conteúdo sexual envolvendo crianças ou informações que possam levar a atos de terror ou violência.
Nos casos em que os usuários solicitaram repetidamente que Claude se envolvesse em conversas prejudiciais, o chatbot recusou-se a cumprir e tentou redirecionar a discussão. Agora, o chatbot pode se recusar a responder e bloquear o chat para que os usuários não possam continuar a conversa — exceto em casos de risco iminente.
A empresa esclareceu que a capacidade de encerrar a conversa será usada apenas como último recurso — a maioria dos usuários não será afetada por esta atualização — e que os usuários podem iniciar uma nova conversa em outro chat imediatamente.
“Estamos tratando essa funcionalidade como um experimento contínuo e continuaremos aprimorando nossa abordagem”, escreveu Anthropic. “Se os usuários encontrarem um uso surpreendente da capacidade de encerrar a conversa, incentivamos que enviem feedback reagindo à mensagem de Claude com polegares para cima ou usando o botão dedicado ‘Dar feedback’.”
A startup tem trabalhado anteriormente em outros projetos relacionados ao bem-estar da IA. No ano passado, Anthropic contratou o pesquisador Kyle Fish para estudar e proteger os “interesses” dos modelos de IA.