
Image by Emilinao Vittoriosi, from Unsplash
Os Novos Modelos de IA da OpenAI Agora Podem “Pensar” Com Imagens
A OpenAI lançou o o3 e o o4-mini, modelos avançados de IA que combinam manipulação de imagens com raciocínio baseado em texto para resolver problemas complexos.
Com pressa? Aqui estão os fatos rápidos:
- Esses modelos manipulam, recortam e transformam imagens para resolver tarefas complexas.
- o3 e o4-mini superam os modelos anteriores em questões de STEM, pesquisa visual e leitura de gráficos.
- Os modelos combinam processamento de texto e imagem, utilizando ferramentas como pesquisa na web e análise de código.
A OpenAI anunciou dois novos modelos de IA, o3 e o4-mini, que conseguem raciocinar com imagens – marcando um grande salto na maneira como a inteligência artificial compreende e processa informações visuais.
“Esses sistemas podem manipular, cortar e transformar imagens a serviço da tarefa que você deseja realizar”, disse Marc Chen, chefe de pesquisa da OpenAI, durante um evento ao vivo na quarta-feira, conforme relatado pelo New York Times.
Os modelos o3 e o4-mini agora têm a capacidade de analisar imagens como parte de seu processo de raciocínio interno, enquanto os modelos anteriores só podiam ver imagens.
O sistema permite que os usuários façam upload de fotos de problemas matemáticos, diagramas técnicos, anotações à mão, pôsteres e imagens borradas ou rotacionadas. Ele irá decompor o conteúdo em explicações passo a passo, independentemente de várias perguntas ou elementos visuais em uma imagem.
O sistema agora pode focar em partes não claras de uma imagem, rotacionando-a para melhor compreensão. Ele combina a compreensão visual com o raciocínio baseado em texto para fornecer respostas precisas. O sistema pode interpretar gráficos de ciências para explicar seu significado e identificar erros de codificação em capturas de tela para gerar soluções.
As modelos também podem usar outras ferramentas como pesquisa na web, código Python e geração de imagens em tempo real, o que lhes permite resolver tarefas muito mais complexas do que antes. A OpenAI diz que essas capacidades vêm embutidas, sem a necessidade de modelos especializados adicionais.
Os testes mostram que o o3 e o o4-mini têm um desempenho melhor do que os modelos anteriores em todas as tarefas visuais que lhes foram atribuídas. O benchmark de busca visual, conhecido como V*, mostra o o3 alcançando 95,7% de precisão. No entanto, os modelos ainda apresentam algumas falhas, como a OpenAI afirma, eles podem produzir erros de superinterpretação e erros básicos de percepção.
A OpenAI introduziu esta atualização como parte de sua iniciativa para desenvolver sistemas de IA que raciocinam de maneira semelhante aos humanos. Os modelos requerem sequências de pensamento extensas para funcionar, o que significa que eles precisam de tempo extra para lidar com questões complexas. Eles também integram ferramentas como geração de imagens, busca na web e análise de código Python para fornecer respostas mais precisas e criativas.
No entanto, há limites. Os modelos às vezes processam quantidades excessivas de informações, cometem erros de percepção e mudam suas abordagens de raciocínio entre tentativas. A empresa está trabalhando para melhorar a confiabilidade e a consistência dos modelos.
Ambos o3 e o4-mini estão disponíveis agora para os usuários do ChatGPT Plus (US$ 20/mês) e Pro (US$ 200/mês). A OpenAI também lançou o Codex CLI, uma nova ferramenta de código aberto para ajudar os desenvolvedores a executar esses modelos de IA junto com seu próprio código.
Enquanto a OpenAI enfrenta desafios legais sobre o uso de conteúdo, sua tecnologia de raciocínio visual mostra como a IA está se aproximando da resolução de problemas do mundo real de maneiras mais semelhantes às humanas.