O Google tem duas novas IAs e uma delas que entender o mundo físico

Fonte:

O Google apresenta nesta terça (19) dois novos modelos de inteligência artificial (IA), o Gemini Omni e o Gemini 3.5 Flash. O primeiro tenta entender o mundo físico, enquanto o segundo mira o alto custo para construir agentes sem perder performance — ambos foram anunciados durante o Google I/O, principal evento da gigante do ano.

O Omni é uma tentativa de avançar além daquilo que os grandes modelos de linguagem (LLMs) são capazes. Uma ala de pesquisadores de IA acredita que, para o campo atingir a suposta superinteligência artificial, os modelos precisam ter compreensão profunda do mundo físico — um desses nomes é o francês Yann LeCun, que deixou o cargo de cientista-chefe da Meta em novembro de 2025 para formar sua própria startup.

Android 17: Sistema do Google se molda para a era dos agentes de IA; conheça os novos recursos

Segundo o Google, o Omni dá o primeiro passo em direção aos "modelos de mundo", que buscam entender e simular a realidade.

— Esse é um grande salto na compreensão e modelagem do mundo. Modelos, como o Veo e Nano Banana conseguem criar vídeos e imagens bem realistas, mas eles não são simulações do mundo. Eles demonstram uma compreensão da física, o que é crucial. O Omni gera resultados baseados no conhecimento acumulado durante o treinamento — explicou a jornalistas Koray Kavucuoglu, diretor de arquitetura de IA do Google.

Isso significa que o Omni será usado inicialmente para tarefas mais prosaicas, como geração de vídeos e imagens, e não como inteligência, por exemplo, de robôs. Ele permite criar animações complexas a partir de prompts simples ou editar vídeos existentes para mudar personagens e estilos. Isso significa que as imagens vão respeitar aspectos como gravidade, sombras e dinâmica de fluidos.

A companhia explica que o novo modelo é multimodal "puro", ou seja, recebe comandos e gera imagens a partir de texto, áudio, vídeo e fotos. O processamento dos diferentes tipos de comando são processados de maneira simultânea.

E um detalhe importante, que avança na criação de vídeos: ele pode "consumir" o vídeo que acabou de gerar, permitindo que o usuário continue melhorando o que acabou de produzir. Uma das grandes restrições dos geradores de vídeo é que eram capazes apenas de gerar pequenos trechos, de poucos segundos, sem permitir continuar o trabalho sobre a produção.

O novo modelo fica disponível a partir desta terça para assinantes dos planos Google AI Plus, Pro e Ultra, que variam entre R$ 25 e R$ 1.210 mensais.

Resumo de recursos do novo app do Gemini, anunciado nesta terça

Google/Divulgação

Gemini 3.5 Flash

Apenas quatro meses após apresentar o Gemini 3.1, o Google atualizou novamente sua principal família de IAs, o que mantém o ritmo alucinante do setor de atualizações cada vez mais próximas — pouco tempo atrás, empresas como OpenAI, Anthropic, Meta e Google mantinham um ritmo anual de atualizações. O novo modelo O 3.5 Flash supera o Gemini 3.1 Pro em quase todos os benchmarks, apresentando um salto em tarefas de codificação e no benchmark GDP val, que mede tarefas economicamente valiosas do mundo real.

No entanto, o foco do novo modelo é o custo e a velocidade de execução de tarefas, aspectos importantes para desenvolvedores.

— Vocês já devem ter ouvido histórias de diretores de tecnologia sobre companhias que já estouraram o orçamento anual de tokens e ainda estamos em maio. Se as companhias usarem uma mistura de modelos “flash” com modelos de fronteira, eles podem economizar muito dinheiro — afirmou Sundar Pichai, CEO do Google, em apresentação para jornalistas.

Tokens são os pedacinhos de palavras processados e gerados por IA. Atualmente, o modelo de cobrança para uso de IAs por parte de desenvolvedores é feito a partir do número de tokens enviados e recebidos pelos sistemas. Em abril, Praveen Neppalli Naga, diretor de tecnologia do Uber, afirmou que a companhia já estourou o orçamento anual de US$ 3,4 bilhões voltado para projetos de IA, resultado do uso de agentes no auxílio de tarefas de programação.

Processar um livro por meio de um chatbot pode consumir 30 mil tokens, enquanto tarefas de programação com agentes podem consumir rapidamente 20 milhões.

Segundo Pichai, grandes empresas, que processam cerca de 1 trilhão de tokens por dia, podem economizar mais de US$ 1 bilhão anualmente se migrarem 80% de suas cargas de trabalho para essa combinação de modelos.

O líder do Google explicou que o Gemini 3.5 Flash é também quatro vezes mais veloz do que outros modelos e que existe uma versão ainda mais otimizada na plataforma de desenvolvimento Antigravity, que é 12 vezes mais rápida que a concorrência. Isso significa que o Gemini surge como um forte candidato para tarefas de programação e execução de processos por agentes de IA, área ocupada com peso pelo Claude Code, da Anthropic.

Sundar Pichai apresenta as novidades do Google nesta terça durante o Google I/O

Google/Reprodução

A partir desta terça, o modelo fica disponível não apenas nas plataformas do Google voltadas para desenvolvedores, como também vai rodar no aplicativo do Gemini e vai turbinar o Modo IA nas buscas da companhia.

Novos recursos do Gemini

Além de ganhar os dois novos modelos, o app do Gemini recebeu outros recursos. Um deles é o Daily Brief, que reúne informações pessoais dos vários apps do Google para organizar o dia dos usuários. Ele analisa e-mails, calendário e tarefas para criar uma programação personalizada pela manhã, priorizando informações e sugerindo os próximos passos.

Foi apresentado também o Gemini Spark, mais um dos agentes da companhia que pode ser configurado e se conecta aos outros serviços da gigante. A diferença aqui é que, diferentemente do OpenClaw, o Spark roda em máquinas virtuais dedicadas no Google Cloud. Isso significa que ele está sempre ativo e pode trabalhar em segundo plano — no entanto, isso pode limiar eu uso já que alguns arquivos importantes para agentes podem estar instalados apenas na máquina física do usuário.

Por fim, o aplicativo foi redesenhado com uma nova linguagem visual que inclui animações fluidas, cores mais vibrantes, nova tipografia e feedback háptico. Em vez de blocos de texto, as respostas agora destacam as informações mais importantes em negrito no topo e podem incluir imagens intercaladas, cronogramas ou animações.