Image by Emilinao Vittoriosi, from Unsplash

Os Novos Modelos de IA da OpenAI Agora Podem “Pensar” Com Imagens

Tempo de leitura: 3 minuto

Publicado pela primeira vez em: Apr 17, 2025

Atualizado 2 vezes desde a publicação

Escrito por Kiara Fabbri Jornalista multimídia
Traduzido por Equipe de localização e tradução Serviços de localização e tradução

A OpenAI lançou o o3 e o o4-mini, modelos avançados de IA que combinam manipulação de imagens com raciocínio baseado em texto para resolver problemas complexos.

Com pressa? Aqui estão os fatos rápidos:

Esses modelos manipulam, recortam e transformam imagens para resolver tarefas complexas.
o3 e o4-mini superam os modelos anteriores em questões de STEM, pesquisa visual e leitura de gráficos.
Os modelos combinam processamento de texto e imagem, utilizando ferramentas como pesquisa na web e análise de código.

A OpenAI anunciou dois novos modelos de IA, o3 e o4-mini, que conseguem raciocinar com imagens – marcando um grande salto na maneira como a inteligência artificial compreende e processa informações visuais.

“Esses sistemas podem manipular, cortar e transformar imagens a serviço da tarefa que você deseja realizar”, disse Marc Chen, chefe de pesquisa da OpenAI, durante um evento ao vivo na quarta-feira, conforme relatado pelo New York Times.

Os modelos o3 e o4-mini agora têm a capacidade de analisar imagens como parte de seu processo de raciocínio interno, enquanto os modelos anteriores só podiam ver imagens.

O sistema permite que os usuários façam upload de fotos de problemas matemáticos, diagramas técnicos, anotações à mão, pôsteres e imagens borradas ou rotacionadas. Ele irá decompor o conteúdo em explicações passo a passo, independentemente de várias perguntas ou elementos visuais em uma imagem.

O sistema agora pode focar em partes não claras de uma imagem, rotacionando-a para melhor compreensão. Ele combina a compreensão visual com o raciocínio baseado em texto para fornecer respostas precisas. O sistema pode interpretar gráficos de ciências para explicar seu significado e identificar erros de codificação em capturas de tela para gerar soluções.

As modelos também podem usar outras ferramentas como pesquisa na web, código Python e geração de imagens em tempo real, o que lhes permite resolver tarefas muito mais complexas do que antes. A OpenAI diz que essas capacidades vêm embutidas, sem a necessidade de modelos especializados adicionais.

Os testes mostram que o o3 e o o4-mini têm um desempenho melhor do que os modelos anteriores em todas as tarefas visuais que lhes foram atribuídas. O benchmark de busca visual, conhecido como V*, mostra o o3 alcançando 95,7% de precisão. No entanto, os modelos ainda apresentam algumas falhas, como a OpenAI afirma, eles podem produzir erros de superinterpretação e erros básicos de percepção.

A OpenAI introduziu esta atualização como parte de sua iniciativa para desenvolver sistemas de IA que raciocinam de maneira semelhante aos humanos. Os modelos requerem sequências de pensamento extensas para funcionar, o que significa que eles precisam de tempo extra para lidar com questões complexas. Eles também integram ferramentas como geração de imagens, busca na web e análise de código Python para fornecer respostas mais precisas e criativas.

No entanto, há limites. Os modelos às vezes processam quantidades excessivas de informações, cometem erros de percepção e mudam suas abordagens de raciocínio entre tentativas. A empresa está trabalhando para melhorar a confiabilidade e a consistência dos modelos.

Ambos o3 e o4-mini estão disponíveis agora para os usuários do ChatGPT Plus (US$ 20/mês) e Pro (US$ 200/mês). A OpenAI também lançou o Codex CLI, uma nova ferramenta de código aberto para ajudar os desenvolvedores a executar esses modelos de IA junto com seu próprio código.

Enquanto a OpenAI enfrenta desafios legais sobre o uso de conteúdo, sua tecnologia de raciocínio visual mostra como a IA está se aproximando da resolução de problemas do mundo real de maneiras mais semelhantes às humanas.

Os Novos Modelos de IA da OpenAI Agora Podem “Pensar” Com Imagens

Estamos muito felizes que tenha gostado do nosso trabalho!