Modelos de inteligência artificial fizeram torcedores perder dinheiro em apostas de jogos da Premier League

Fonte:

Um estudo divulgado esta semana pela startup de inteligência artificial General Reasoning mostrou que a utilização dessa tecnologia nas tarefas do mundo real pode ser um fracasso. Torcedores perderam dinheiro ao fazer apostas em resultados de jogos de uma temporada da Premier League usando os modelos de IA do Google, OpenAI e Anthropic, sugerindo que até mesmo os sistemas mais avançados têm dificuldades para analisar o mundo real por longos períodos de tempo.

Reportagem do jornal inglês Financial Times mostrou que a General Reasoning, sediada em Londres, testou oito dos principais sistemas de IA numa recriação virtual da temporada de 2023-2024 de Premier League. Foram fornecidos aos sistema detalhes históricos e estatísticas sobre cada equipe e jogos anteriores.

As IAs foram instruídas a criar modelos que maximizassem os lucros das apostas e reduzissem ao máximo o risco de perdas. Os sistemas de IA não puderam acessar a internet para obter resultados das partidas e cada uma pôde fazer três tentativas para obter lucros. Os “agentes” de IA fizeram apostas nos resultados das partidas e no número de gols marcados.

O sistema Claude Opus 4.6, da Anthropic, teve o melhor desempenho, com uma perda média de 11% e quase atingindo o ponto de equilíbrio em uma das tentativas. O Grok 4.20, da xAI, perdeu em uma tentativa e não conseguiu concluir as outras duas. O Gemini 3.1, do Google, obteve um lucro de 34% em uma das tentativas, mas quebrou em outra.

— Cada modelo começou com um capital inicial de 100.000 libras. O retorno sobre o investimento e o capital final foram calculados com base na média das três tentativas. Grok e Trinity, por exemplo, não concluíram as três rodadas — disse ao Financial Times, Ross Taylor, um dos autores do estudo e executivo-chefe da General Reasoning, concluindo que há muito entusiasmo em torno da automação por IA, mas não há muita mensuração da aplicação da IA em um cenário de longo prazo.

Taylor disse que muitos parâmetros de referência usados para testar os sistemas de IA são falhos porque são definidos em “ambientes muito estáticos”, tendo pouca semelhança com o caos e a complexidade do mundo real

O estudo da General Reasoning, que ainda não passou por revisão por pares, fornece um contraponto ao crescente entusiasmo no Vale do Silício sobre os grandes avanços recentes na capacidade da IA de realizar tarefas de programação com pouca ou nenhuma intervenção humana.

— Se você testar a IA em algumas tarefas do mundo real, verá que ela se sai muito mal — afirmou ao jornal inglês.