O Google tem duas novas IAs e uma delas que entender o mundo fĂsico
O Google apresenta nesta terça (19) dois novos modelos de inteligĂŞncia artificial (IA), o Gemini Omni e o Gemini 3.5 Flash. O primeiro tenta entender o mundo fĂsico, enquanto o segundo mira o alto custo para construir agentes sem perder performance — ambos foram anunciados durante o Google I/O, principal evento da gigante do ano.
O Omni Ă© uma tentativa de avançar alĂ©m daquilo que os grandes modelos de linguagem (LLMs) sĂŁo capazes. Uma ala de pesquisadores de IA acredita que, para o campo atingir a suposta superinteligĂŞncia artificial, os modelos precisam ter compreensĂŁo profunda do mundo fĂsico — um desses nomes Ă© o francĂŞs Yann LeCun, que deixou o cargo de cientista-chefe da Meta em novembro de 2025 para formar sua prĂłpria startup.
Android 17: Sistema do Google se molda para a era dos agentes de IA; conheça os novos recursos
Segundo o Google, o Omni dá o primeiro passo em direção aos "modelos de mundo", que buscam entender e simular a realidade.
— Esse Ă© um grande salto na compreensĂŁo e modelagem do mundo. Modelos, como o Veo e Nano Banana conseguem criar vĂdeos e imagens bem realistas, mas eles nĂŁo sĂŁo simulações do mundo. Eles demonstram uma compreensĂŁo da fĂsica, o que Ă© crucial. O Omni gera resultados baseados no conhecimento acumulado durante o treinamento — explicou a jornalistas Koray Kavucuoglu, diretor de arquitetura de IA do Google.
Isso significa que o Omni será usado inicialmente para tarefas mais prosaicas, como geração de vĂdeos e imagens, e nĂŁo como inteligĂŞncia, por exemplo, de robĂ´s. Ele permite criar animações complexas a partir de prompts simples ou editar vĂdeos existentes para mudar personagens e estilos. Isso significa que as imagens vĂŁo respeitar aspectos como gravidade, sombras e dinâmica de fluidos.
A companhia explica que o novo modelo Ă© multimodal "puro", ou seja, recebe comandos e gera imagens a partir de texto, áudio, vĂdeo e fotos. O processamento dos diferentes tipos de comando sĂŁo processados de maneira simultânea.
E um detalhe importante, que avança na criação de vĂdeos: ele pode "consumir" o vĂdeo que acabou de gerar, permitindo que o usuário continue melhorando o que acabou de produzir. Uma das grandes restrições dos geradores de vĂdeo Ă© que eram capazes apenas de gerar pequenos trechos, de poucos segundos, sem permitir continuar o trabalho sobre a produção.
O novo modelo fica disponĂvel a partir desta terça para assinantes dos planos Google AI Plus, Pro e Ultra, que variam entre R$ 25 e R$ 1.210 mensais.
Resumo de recursos do novo app do Gemini, anunciado nesta terça
Google/Divulgação
Gemini 3.5 Flash
Apenas quatro meses apĂłs apresentar o Gemini 3.1, o Google atualizou novamente sua principal famĂlia de IAs, o que mantĂ©m o ritmo alucinante do setor de atualizações cada vez mais prĂłximas — pouco tempo atrás, empresas como OpenAI, Anthropic, Meta e Google mantinham um ritmo anual de atualizações. O novo modelo O 3.5 Flash supera o Gemini 3.1 Pro em quase todos os benchmarks, apresentando um salto em tarefas de codificação e no benchmark GDP val, que mede tarefas economicamente valiosas do mundo real.
No entanto, o foco do novo modelo é o custo e a velocidade de execução de tarefas, aspectos importantes para desenvolvedores.
— Vocês já devem ter ouvido histórias de diretores de tecnologia sobre companhias que já estouraram o orçamento anual de tokens e ainda estamos em maio. Se as companhias usarem uma mistura de modelos “flash” com modelos de fronteira, eles podem economizar muito dinheiro — afirmou Sundar Pichai, CEO do Google, em apresentação para jornalistas.
Tokens sĂŁo os pedacinhos de palavras processados e gerados por IA. Atualmente, o modelo de cobrança para uso de IAs por parte de desenvolvedores Ă© feito a partir do nĂşmero de tokens enviados e recebidos pelos sistemas. Em abril, Praveen Neppalli Naga, diretor de tecnologia do Uber, afirmou que a companhia já estourou o orçamento anual de US$ 3,4 bilhões voltado para projetos de IA, resultado do uso de agentes no auxĂlio de tarefas de programação.
Processar um livro por meio de um chatbot pode consumir 30 mil tokens, enquanto tarefas de programação com agentes podem consumir rapidamente 20 milhões.
Segundo Pichai, grandes empresas, que processam cerca de 1 trilhão de tokens por dia, podem economizar mais de US$ 1 bilhão anualmente se migrarem 80% de suas cargas de trabalho para essa combinação de modelos.
O lĂder do Google explicou que o Gemini 3.5 Flash Ă© tambĂ©m quatro vezes mais veloz do que outros modelos e que existe uma versĂŁo ainda mais otimizada na plataforma de desenvolvimento Antigravity, que Ă© 12 vezes mais rápida que a concorrĂŞncia. Isso significa que o Gemini surge como um forte candidato para tarefas de programação e execução de processos por agentes de IA, área ocupada com peso pelo Claude Code, da Anthropic.
Sundar Pichai apresenta as novidades do Google nesta terça durante o Google I/O
Google/Reprodução
A partir desta terça, o modelo fica disponĂvel nĂŁo apenas nas plataformas do Google voltadas para desenvolvedores, como tambĂ©m vai rodar no aplicativo do Gemini e vai turbinar o Modo IA nas buscas da companhia.
Novos recursos do Gemini
Além de ganhar os dois novos modelos, o app do Gemini recebeu outros recursos. Um deles é o Daily Brief, que reúne informações pessoais dos vários apps do Google para organizar o dia dos usuários. Ele analisa e-mails, calendário e tarefas para criar uma programação personalizada pela manhã, priorizando informações e sugerindo os próximos passos.
Foi apresentado tambĂ©m o Gemini Spark, mais um dos agentes da companhia que pode ser configurado e se conecta aos outros serviços da gigante. A diferença aqui Ă© que, diferentemente do OpenClaw, o Spark roda em máquinas virtuais dedicadas no Google Cloud. Isso significa que ele está sempre ativo e pode trabalhar em segundo plano — no entanto, isso pode limiar eu uso já que alguns arquivos importantes para agentes podem estar instalados apenas na máquina fĂsica do usuário.
Por fim, o aplicativo foi redesenhado com uma nova linguagem visual que inclui animações fluidas, cores mais vibrantes, nova tipografia e feedback háptico. Em vez de blocos de texto, as respostas agora destacam as informações mais importantes em negrito no topo e podem incluir imagens intercaladas, cronogramas ou animações.
