Há dez anos, a IA fez história no jogo Go. Agora, seus criadores querem que ela domine toda a ciência

Fonte:

Há 10 anos, a revolução da inteligência artificial (IA) teve início. Foi na semana de 9 de março de 2016 que um sistema de IA derrotou o então campeão mundial de Go, Lee Sedol, e mostrou que redes neurais artificiais podiam aprender sozinhas e desenvolver algo próximo da intuição humana. Parte dos avanços técnicos estabelecidos há uma década ainda permeiam parte dos pilares básicos da IA moderna. Para os pesquisadores que viram o AlphaGo se tornar campeão mundial do complexo jogo chinês, isso ainda é pouco: eles querem que a tecnologia resolva as grandes questões da ciência.

Na semana em que o campo da IA relembra a histórica semana na Coreia do Sul, que terminou com o placar de 4 a 1 para máquina, o GLOBO entrevistou Thore Graepel, membro do time que desenvolveu o AlphaGo e cientista emérito da DeepMind, e com Pushmeet Kohli, vice-presidente de ciência da DeepMind, o braço de pesquisas avançadas de IA do Google.

Startup cria 'computador vivo' com 800 mil neurônios humanos capaz de jogar videogame; entenda

Pesquisadores brasileiros mostram como usar computação quântica para aplicações financeiras

Na conversa, os dois lembraram o impacto causado pelo AlphaGo, que utilizava redes neurais convolucionais profundas com Monte Carlo Tree Search (MCTS) e aprendizado por reforço, permitindo que a IA aprendesse jogadas criativas e intuitivas sem depender apenas de dados humanos — na época, Sergey Brin, fundador do Google, afirmou que o sistema mostrava ter algum tipo de “intuição”. Ainda que os grandes LLMs atuais, como o ChatGPT, não utilizem a mesma arquitetura do AlphaGo, dois de seus princípios básicos permanecem: as redes neurais e o aprendizado por reforço.

O AlphaGo tinha duas redes principais: a policy network (rede de política), que sugere movimentos prováveis, e a value network (rede de valor), que avaliava a probabilidade de vitória em uma posição do tabuleiro. Isso permitia a IA ser criativa, o que ficou demonstrado na segunda das cinco partidas contra Lee Sedol, quando o sistema executou a jogada 37, um movimento com apenas uma chance em 10 mil de ser executada por um humano — na partida 4, o campeão mundial humano devolveu com a jogada 78, que também tinha a mesma chance de execução por um humano.

Hoje, Graepel e Kohli acreditam que o potencial da tecnologia, e das arquiteturas que a fazem funcionar, está longe de estar esgotado apesar da sensação constante de saturação que o mundo da IA transmite. Para eles, os modelos atuais ainda podem trazer respostas para problemas avançados, incluindo os próprios mistérios da ciência por trás da IA.

Como surgiu a ideia do AlphaGo? Enquanto vocês estavam desenvolvendo o sistema, tinham a sensação de que aquilo poderia se tornar algo tão importante para o campo da IA?

Thore: O Go era um tema de pesquisa em IA. Em diferentes momentos, outros pesquisadores tentaram métodos distintos para resolvê-lo. E sempre pareceu ser um dos problemas mais difíceis — talvez o mais difícil — de solucionar naquela época. Quando entrei na DeepMind, em 2015, estávamos em um ponto em que as redes neurais já tinham se mostrado uma tecnologia que funcionava. Sabíamos que era possível fazer uma aproximação de funções muito boa com redes neurais. Então, parecia o momento certo para aplicar essa tecnologia revolucionária ao Go. As redes neurais podem ser treinadas para agir como reconhecedoras de padrões. Por exemplo, uma rede neural pode olhar para uma posição no Go e aprender a avaliar se aquela é uma boa posição para as pedras pretas ou para as brancas. Ou pode pegar uma posição e aprender quais são os movimentos mais promissores. É um pouco como um humano desenvolve intuição à medida que joga mais e ganha experiência. Então, em termos de timing, era o momento ideal.

Thore Graepel fazia parte do time que desenvolveu o AlphaGo

Google/Divulgação

De que maneiras o AlphaGo ainda influencia o desenvolvimento da IA? Quão diferente ele é dos LLMs atuais?

Thore: Por um lado, Go é um domínio muito limitado em comparação ao mundo real. Ele é extremamente complexo, mas ainda assim limitado. Nesse sentido, o AlphaGo era uma IA estreita (narrow AI), porque dominava algo que não é tão complexo quanto o mundo real. Por outro lado, muitos dos princípios que usamos no AlphaGo se aplicam muito bem aos sistemas modernos de IA. Vou dar um exemplo. Como humanos, temos duas formas de pensar. Essa ideia foi proposta por Daniel Kahneman. Temos dois sistemas. O sistema 1 é a intuição: fazemos julgamentos rápidos. Olhamos algo e dizemos “isso está certo”, “isso está errado”, “isso é bonito”, “isso é feio”. E temos um segundo sistema pelo qual raciocinamos. Passamos por várias etapas de raciocínio e chegamos a uma conclusão lógica. Kahneman chamou isso de “pensar rápido e pensar devagar”.

O AlphaGo combina esses dois modos de pensamento. De um lado, usa redes neurais para fazer julgamentos: “essa é uma boa posição?”, “esse é um bom movimento?”. Isso é aprendido a partir de dados, porque ele viu muitos jogos de Go. Mas, por outro lado, ele também raciocina sobre diferentes variações do jogo: se eu fizer isso, meu oponente pode fazer aquilo, então eu respondo com aquilo, e assim por diante. Esses dois elementos são, na verdade, precursores de como os grandes modelos de linguagem funcionam hoje. Os primeiros LLMs davam respostas espontâneas. Eles basicamente geravam a próxima palavra com base no prompt.

Mais tarde, como as pessoas queriam capacidades de raciocínio, passaram a permitir que os modelos “ensaiassem” o raciocínio internamente e produzissem tokens de raciocínio — uma espécie de trilha de pensamento — antes de dar a resposta final. Isso aumentou enormemente as capacidades desses sistemas. E podemos conectar essa ideia até a forma como o AlphaGo combinava intuição espontânea com um processo mais longo de raciocínio. Então, por um lado, fizemos um progresso enorme nos últimos dez anos. Mas, por outro, muitos dos desenvolvimentos atuais dos LLMs têm raízes em como fizemos as coisas no AlphaGo.

Nos últimos três ou quatro anos houve um foco enorme em LLMs e na arquitetura Transformer. Quais outras arquiteturas estão sendo exploradas? Existe IA além do Transformer?

Pushmeet: O que vimos com o AlphaGo foi a combinação de arquiteturas de redes neurais convolucionais com Monte Carlo Tree Search e aprendizado por reforço. Essa combinação mostrou o que era possível. E acho que estamos vendo algo parecido com os grandes modelos de linguagem hoje. As pessoas trabalham com modelos de linguagem há muitos anos, mas o grande salto veio com o desenvolvimento do Transformer. Essa nova arquitetura trouxe um viés indutivo muito poderoso, que permite escalar os modelos e obter uma generalização impressionante em compreensão de linguagem natural e execução de tarefas. Agora, estamos vendo técnicas usadas no AlphaGo — como aprendizado por reforço — sendo usadas para treinar esses modelos baseados em Transformers e torná-los ainda melhores em resolver tarefas. Sejam problemas avançados de matemática ou programação, estamos vendo os mesmos sinais de aprendizado por reforço sendo aplicados aos LLMs atuais.

O srs. estão dizendo que os Transformers — combinados com outras técnicas — ainda têm muito espaço para melhorias e descobertas?

Pushmeet: Sim. Existem vários desenvolvimentos acontecendo sobre a base dos Transformers. Um deles é a mixture of experts. Outro envolve novas arquiteturas de memória. As pessoas estão pensando em como armazenar grandes quantidades de contexto.No AlphaGo, observávamos apenas o estado do jogo — o estado do tabuleiro. Nos LLMs, o “estado” é o contexto fornecido ao modelo para responder a um problema. Então, há muitos avanços em como representar esse estado, como modelar memória e como resolver problemas de previsão de maneira mais eficiente.

Thore: Se pensarmos no AlphaGo, uma das grandes inovações foi o elemento de agentes jogando contra si mesmos e melhorando continuamente sua compreensão do jogo. Agora, vemos algo parecido sendo aplicado a problemas científicos muito difíceis. Sistemas multiagentes — como o que chamamos de co-cientistas — têm agentes com diferentes “personas”. Um agente gera ideias ou hipóteses. Outro revisa essas ideias. Outro as refina.

Outro combina ideias diferentes. Esses múltiplos agentes trabalhando juntos acabam produzindo resultados muito melhores do que um único agente de linguagem conseguiria. Estamos vendo o surgimento de novas arquiteturas de raciocínio, com especialização em diferentes tarefas. E, dessa interação, surge um sistema capaz de gerar novos insights e soluções.

Nos últimos cinco anos, houve uma mudança grande sobre a narrativa da IA. Antes, o senso comum, era que sistemas especializados eram a melhor escolha. Depois vieram os LLMs e os chatbots, e passamos para a ideia de um grande modelo generalista que pode fazer tudo. Agora, parece que estamos voltando à conversa sobre sistemas especializados e agentes. A ideia de que a superinteligência emergiria de LLMs estava errada?

Pushmeet: Não. Nossa visão é que Transformers e grandes modelos de linguagem continuarão melhorando suas capacidades. O que esses sistemas estão mostrando é que sistemas gerais são possíveis quando você combina diferentes agentes trabalhando juntos. Então, eu não diria que isso é especialização. É explorar um novo eixo de desenvolvimento. Na primeira geração de LLMs, o foco estava nas leis de escala: mais dados e modelos maiores. Agora, estamos explorando outra dimensão: computação no tempo de inferência. Quanto tempo o modelo dedica para pensar? Por exemplo, no nosso agente Gemini DeepThink, quando você dá mais tempo para o modelo pensar sobre um problema, ele produz soluções muito melhores. As arquiteturas de agentes exploram exatamente isso: mais tempo de raciocínio. Pensar sob diferentes perspectivas — gerar uma ideia, revisar uma ideia, combinar ideias. Esse é um novo tipo de escala: dar mais tempo ao modelo para pensar e observar quais capacidades emergem. Outro aspecto importante é o uso de ferramentas. Você pode equipar um modelo com ferramentas especializadas. Por exemplo, um agente de pesquisa biológica poderia coordenar um processo científico e chamar modelos como AlphaFold para resolver o problema de dobramento de proteínas. Assim, o agente usa diferentes ferramentas e combina seus resultados, como um cientista faria.

Pushmeet Kohli, vice-presidente de ciência da DeepMind, fala sobre o uso de IA em áreas como química e matemática

Google/Divulgação

Nos últimos dois anos os modelos ficaram muito mais poderosos. Se compararmos a primeira geração de LLMs com os atuais, a diferença é impressionante. Quanto disso é avanço científico real e quanto é simplesmente escalar dados e poder computacional?

Pushmeet: A escala teve um papel importante, mas não é só isso. Várias tendências importantes surgiram nos últimos anos: mixture of experts, escalonamento de computação no tempo de inferência, melhor curadoria de dados. Não basta apenas aumentar o volume de dados. É preciso escolher quais dados usar. Também houve mudanças nas arquiteturas para torná-las mais eficientes e permitir mais tempo de raciocínio. E, finalmente, um elemento central foi o aprendizado por reforço, que também foi essencial no AlphaGo.

Qual é a grande questão científica que os srs. gostariam de ver a IA responder no futuro próximo?

Pushmeet: Não é só uma (risos). Tenho muitas expectativas em relação à IA. O AlphaFold mostrou o que é possível. Foi um grande avanço, mas precisamos replicar esse tipo de avanço em muitos outros domínios. Espero que sistemas de aprendizado de máquina avancem nossa compreensão em: ciência dos materiais, novos supercondutores de alta temperatura, ímãs sem terras raras, controle de plasma em reatores de fusão, matemática avançada, incluindo problemas do prêmio Millennium e previsão do tempo e modelos climáticos de longo prazo Há muitos campos — biologia, química, meteorologia, matemática — onde veremos resultados transformadores. E também espero que entendamos melhor a própria mente e a inteligência.

Thore: Essa é outra perspectiva. O que Pushmeet descreve é aplicar IA a problemas científicos. Mas a própria pesquisa em IA também é um problema científico. À medida que construímos modelos melhores, entendemos melhor o que é uma arquitetura cognitiva. Qual é o papel da memória nesses sistemas? Como construir algo semelhante à intuição nesses sistemas? Qual é o papel da incorporação física na robótica? Então, além dos desafios científicos externos, o próprio campo da IA está lidando com algumas das questões científicas mais interessantes do mundo..

Se imaginarmos dez anos no futuro, em 2036, e olharmos para esta década, os anos 2020 — qual momento será lembrado como equivalente ao AlphaGo?

Pushmeet: Acho que talvez já estejamos vivendo esse momento. Na minha visão, é a revolução do código. Esses modelos se tornaram extremamente bons em programação. Agora, as pessoas podem simplesmente usar linguagem natural para pedir a criação de programas ou aplicações inteiras. Isso democratiza a engenharia de software e também ajuda os próprios desenvolvedores de IA a construir a próxima geração de modelos.

Thore: Concordo com isso — especialmente na área de descoberta de algoritmos. Já estamos vendo casos em que um agente desenvolveu um novo algoritmo que melhora algo que cientistas tentavam otimizar há 50 anos. Por exemplo, na multiplicação de matrizes — uma operação fundamental para redes neurais e praticamente todos os sistemas de IA. Ainda não sabemos qual é o número mínimo de operações necessário para multiplicar duas matrizes. Um sistema de IA descobriu um novo algoritmo que ninguém conhecia. Esse tipo de descoberta de conhecimento fundamental é algo que estamos vivendo agora. Não está acontecendo apenas na multiplicação de matrizes: estamos vendo novas descobertas praticamente toda semana. No futuro, vamos olhar para trás e lembrar de uma época em que humanos criavam algoritmos manualmente.