
Image by Freepik
O SEAL do MIT Permite que a IA Se Autoeduque e Se Adapte Continuamente
Pesquisadores do Improbable AI Lab do MIT desenvolveram uma estrutura inovadora chamada SEAL (Self-Adapting LLMs). O SEAL permite que os sistemas de inteligência artificial aprendam novas habilidades após seu treinamento inicial por meio do auto-ensino.
Está com pressa? Aqui estão os fatos rápidos:
- O MIT desenvolveu o SEAL, um framework que permite à IA ensinar a si mesma novas habilidades.
- O SEAL reescreve seu próprio treinamento usando resumos, quizzes e anotações gerados por ele mesmo.
- Ele alcançou 40% de melhora na recordação e 72,5% de sucesso em tarefas de raciocínio.
O novo sistema supera os grandes modelos de linguagem existentes, incluindo o ChatGPT, que os pesquisadores explicam geralmente permanecer fixo uma vez treinado e requerer treinamento extensivo para aprender novas informações.
O principal avanço do SEAL reside em sua capacidade de permitir que a IA gere seus próprios materiais de treinamento e, em seguida, use esses materiais para se aperfeiçoar. De fato, quando apresentado com novos dados – como um artigo de notícias ou tarefas de exemplo – o sistema cria explicações simplificadas, fatos relacionados ou questões de prática.
Os pesquisadores explicam que esse processo imita os métodos de aprendizado humano, onde as pessoas normalmente escrevem notas e flashcards para melhorar sua compreensão e retenção de novas informações.
Durante a fase de “loop interno”, o SEAL executa uma pequena atualização conhecida como “auto-edição”. O sistema realiza uma avaliação de “loop externo” para verificar a melhoria de seu desempenho após a atualização. Quando a IA identifica uma mudança positiva, ela memoriza a modificação; caso contrário, tenta novas abordagens.
Os pesquisadores dizem que esse processo iterativo permite que a IA aprimore continuamente seu conhecimento e se adapte a novos desafios sem a necessidade de um re-treinamento completo.
Os pesquisadores observam que o método usado pelo SEAL se destaca de todas as abordagens tradicionais de aprendizado por reforço (RL). Agentes em ambientes RL padrão aprendem através de tentativa e erro para maximizar suas recompensas quando interagem com o ambiente.
O SEAL utiliza RL como uma ferramenta para treinar seu sistema de IA para criar e implementar seus próprios recursos de aprendizagem, o que torna o modelo de linguagem tanto um instrutor quanto um aluno. O sistema produz “auto-edições”, que incluem instruções personalizadas juntamente com dados sintéticos para seu processo de refinamento. Esta abordagem permite atualizações persistentes e autodirigidas que os métodos convencionais de RL, que não ajustam os parâmetros do modelo diretamente, não conseguem alcançar.
Pesquisadores do MIT testaram o SEAL em duas frentes. Primeiro, no aprendizado de novos fatos, o SEAL transformou texto bruto em implicações e formatos de perguntas e respostas, resultando em uma melhoria de precisão de 47% que superou até mesmo os materiais de treinamento do GPT-4.1. Em segundo lugar, em tarefas de raciocínio abstrato, o SEAL alcançou uma taxa de sucesso de 72,5%, superando modelos sem aprendizado por reforço ou treinamento padrão.
Os pesquisadores argumentam que as possíveis aplicações são amplas. O SEAL pode permitir várias aplicações, desde tutores de IA personalizados, a colaboradores de pesquisa auto-evolutivos, e agentes autônomos que melhoram através da experiência.
A tecnologia tem o potencial de transformar os sistemas de IA corporativos, permitindo que eles desenvolvam capacidades de pensamento interno, que substituem a necessidade de processos de reciclagem custosos para lidar com rápidas mudanças de dados e requisitos dos usuários.
No entanto, ainda há desafios. Por exemplo, o SEAL pode sofrer do que os pesquisadores chamam de “esquecimento catastrófico”, onde o novo aprendizado sobrescreve o conhecimento anterior, e o processo de autoredação requer recursos computacionais significativos.
Para mitigar esses problemas, a equipe propõe sistemas híbridos que combinam SEAL com ferramentas externas para memória temporária, reservando as atualizações do SEAL para conhecimento essencial e de longo prazo.
Apesar desses obstáculos, os pesquisadores do MIT acreditam que essa tecnologia ajudará as máquinas a alcançar adaptabilidade semelhante à humana e habilidades de aprendizado ao longo da vida.