IA na Saúde: Novo Padrão de Stanford Mede Desempenho no Mundo Real

Image by Irwan, from Unsplash

IA na Saúde: Novo Padrão de Stanford Mede Desempenho no Mundo Real

Tempo de leitura: 3 minuto

Pesquisadores de Stanford conduziram testes virtuais de EHR com agentes de IA, que relatam como modelos como o Claude 3.5 podem auxiliar médicos com tarefas rotineiras de saúde.

Com pressa? Aqui estão os fatos rápidos:

  • Agentes de IA podem realizar tarefas como solicitar exames e prescrever medicamentos.
  • Claude 3.5 Sonnet v2 atingiu a taxa de sucesso mais alta, com 70%.
  • Muitos modelos de IA tiveram dificuldades com fluxos de trabalho complexos e interoperabilidade do sistema.

Pesquisadores de Stanford estão estabelecendo novos critérios de avaliação para determinar se os sistemas de IA são capazes de realizar tarefas médicas no mundo real. Embora a IA tenha demonstrado potencial para aplicações médicas em diversos campos, especialistas alertam que ela ainda precisa de mais testes.

“Trabalhar neste projeto me convenceu de que a IA não substituirá os médicos tão cedo”, disse Kameron Black, co-autora e bolsista de Informática Clínica no Stanford Health Care.

Para investigar isso, a equipe desenvolveu o MedAgentBench, um sistema virtual de registro eletrônico de saúde (EHR), construído para avaliar como os agentes de IA realizam procedimentos médicos que os médicos fazem diariamente.

É importante notar que, ao contrário dos chatbots, os agentes de IA podem agir de forma autônoma, lidando com tarefas complexas e multietapas usando dados do paciente, solicitando exames e prescrevendo medicamentos.

“Chatbots dizem coisas. Os agentes de IA podem fazer coisas”, disse Jonathan Chen, professor associado de medicina e ciência de dados biomédicos e autor sênior. “Isso significa que eles poderiam, teoricamente, recuperar diretamente as informações do paciente do prontuário médico eletrônico, raciocinar sobre essas informações e agir diretamente, inserindo ordens para exames e medicamentos. Este é um patamar muito mais alto para autonomia no mundo de alto risco do cuidado médico. Precisamos de um benchmark para estabelecer o estado atual da capacidade da IA em tarefas reprodutíveis que podemos otimizar”, acrescentou Chen.

Para testar o sistema virtual, os pesquisadores obtiveram dados de 100 perfis de pacientes, que acumularam 785.000 registros. Em segundo lugar, cerca de uma dúzia de grandes modelos de linguagem (LLMs) foram testados em 300 tarefas clínicas.

Os resultados mostraram que o modelo Claude 3.5 Sonnet v2 atingiu uma taxa de sucesso de 70% como o modelo de melhor desempenho, no entanto, muitos modelos não conseguiram lidar com fluxos de trabalho complexos, bem como processos de integração de sistema.

“Esperamos que este benchmark possa ajudar os desenvolvedores de modelos a acompanhar o progresso e avançar ainda mais nas capacidades dos agentes”, disse Yixing Jiang, estudante de doutorado e co-autor.

Os especialistas preveem que os agentes de IA assumirão o trabalho administrativo clínico básico, esperançosamente diminuindo a exaustão dos médicos sem substituir completamente os médicos humanos da prática.

“Sou apaixonada por encontrar soluções para o esgotamento dos profissionais de saúde”, disse Black. “Espero que, trabalhando com aplicações de IA agente na saúde que ampliam nossa força de trabalho, possamos ajudar a aliviar a carga dos profissionais e desviar essa crise iminente”, acrescentou Black.

Gostou desse artigo? Avalie!
Eu detestei Eu não gostei Achei razoável Muito bom! Eu adorei!

Estamos muito felizes que tenha gostado do nosso trabalho!

Como um leitor importante, você se importaria de nos avaliar no Trustpilot? É rápido e significa muito para nós. Obrigado por ser incrível!

Avalie-nos no Trustpilot
0 Votado por 0 usuários
Título
Comentar
Obrigado por seu feedback