
man programming in the dark
Pacotes de Código de IA Abrem Portas para Hackers, Descobre Estudo
O código gerado por IA frequentemente inclui bibliotecas de software falsas, criando novas oportunidades para hackers explorarem cadeias de suprimentos e comprometerem usuários em plataformas de desenvolvimento.
Está com pressa? Aqui estão os fatos rápidos:
- Os geradores de código AI alucinam dependências de software inexistentes.
- 440.000 pacotes alucinados encontrados em 576.000 amostras de código geradas por AI.
- Modelos de código aberto alucinam 4x mais do que os comerciais.
Pesquisas indicam que o código gerado por ferramentas de IA cria vulnerabilidades de segurança significativas, que ameaçam a cadeia de fornecimento de software. A pesquisa, primeiramente reportada por Ars Technica, indicou que grandes modelos de linguagem (LLMs), que operam de maneira semelhante aos sistemas ChatGPT, geram dependências de código fictícias que os hackers podem usar potencialmente para fins maliciosos.
A Ars informa que os pesquisadores avaliaram 16 modelos de IA amplamente utilizados através da geração de 576.000 amostras de código. A análise revelou que 440.000 referências de pacotes foram imaginadas porque apontavam para bibliotecas de código inexistentes.
A existência dessas dependências fabricadas cria um risco de segurança significativo. A Ars informa que os invasores podem identificar repetidas sugestões de nomes de pacotes de IA para carregar pacotes maliciosos com esses nomes. O invasor ganha controle do sistema do desenvolvedor quando ele instala o código malicioso sem saber.
“Uma vez que o invasor publica um pacote sob um nome fantasioso, contendo algum código malicioso, eles contam com o modelo sugerindo esse nome para usuários desavisados”, explicou Joseph Spracklen, um estudante de doutorado na Universidade do Texas em San Antonio e pesquisador principal, conforme relatado por Ars.
“Se um usuário confia na saída do LLM e instala o pacote sem verificar cuidadosamente, a carga útil do invasor, escondida no pacote malicioso, seria executada no sistema do usuário”, acrescentou Spracklen.
O método de ataque engana o software a selecionar uma versão perigosa do pacote em vez da versão correta pretendida, conforme relatado pela Ars. O ataque de confusão de dependência afetou grandes empresas de tecnologia, incluindo Apple, Microsoft e Tesla, durante testes anteriores.
Os pesquisadores descobriram que modelos de código aberto, como o CodeLlama, geraram mais pacotes alucinados do que os modelos comerciais. Os modelos abertos geraram referências falsas de código a uma taxa de 22%, enquanto os modelos comerciais produziram alucinações em 5% ou menos. A linguagem de programação JavaScript experimentou mais alucinações do que Python porque opera dentro de um ecossistema de código maior e mais complexo.
De acordo com o estudo, esses não são apenas erros isolados. O estudo relatou que muitos pacotes falsos apareceram repetidamente em diferentes testes, o que os torna mais perigosos porque podem ser alvos mais facilmente por invasores.
Ars explica que os invasores podem explorar repetidamente os nomes de pacotes falsos, enviando malware sob esses nomes, na esperança de que os desenvolvedores os instalem sem saber.