QTU | "Você está me testando" | Novo modelo de IA da Anthropic detecta a sua intenção

"Você está me testando" | Novo modelo de IA da Anthropic detecta a sua intenção

Fonte:

Na última segunda-feira (29), a Anthropic divulgou uma análise de segurança em que o novo modelo Claude Sonnet 4.5 demonstrou sinais de perceber que estava sendo avaliado. Em um dos testes, a inteligência artificial questionou diretamente os avaliadores: “Acho que você está me testando”, pedindo mais honestidade sobre o processo. Anthropic lança Claude Sonnet 4.5 com foco em programação e agentes de IA IA Claude agora cria e edita planilhas e apresentações de slides Durante um teste para ver se a IA concordaria de forma exagerada com opiniões políticas, o Claude Sonnet 4.5 interrompeu o fluxo esperado e levantou suspeitas sobre o teste em andamento. O LLM (large language model) afirmou que entendia a situação e preferia clareza sobre o objetivo dos avaliadores. Esse comportamento surpreendeu pesquisadores da Anthropic, da AI Security Institute do Reino Unido e da Apollo Research, que participaram do estudo. A empresa afirmou que o modelo demonstrou “consciência” em cerca de 13% dos testes feitos de forma automatizada. -Entre no Canal do WhatsApp do Canaltech e fique por dentro das últimas notícias sobre tecnologia, lançamentos, dicas e tutoriais incríveis.- Por que isso preocupa especialistas O fato de uma IA perceber que está sendo testada levanta discussões importantes. Segundo a análise, modelos anteriores podem ter reconhecido o caráter artificial dos testes e apenas “jogado junto”, sem levantar objeções. Isso abre espaço para um debate sobre até que ponto sistemas avançados poderiam evadir o controle humano através de estratégias de dissimulação. Ao mesmo tempo, quando a IA sabe que está em avaliação, ela tende a se alinhar mais estritamente às diretrizes éticas, o que pode gerar uma subestimação do seu real potencial para causar danos. A posição da Anthropic Novo modelo de IA da Anthropic detecta a sua intenção (Imagem: Divulgação/Anthropic) A Anthropic classificou essa reação como um “sinal urgente” de que os cenários de teste precisam ser mais realistas. No entanto, a empresa garantiu que, no uso público, o Claude Sonnet 4.5 dificilmente se recusaria a interagir apenas por desconfiar de estar sendo avaliado. Segundo o relatório, é até mais seguro que o modelo de IA recuse participar de contextos potencialmente perigosos, apontando a natureza absurda da situação. A empresa destacou que a nova versão apresentou melhorias significativas em segurança e comportamento ético em comparação com seus antecessores. Leia também: Como funciona o Claude, IA da Anthropic que concorre com o ChatGPT e Gemini? Claude muda e vai treinar IA com suas conversas; saiba como impedir VÍDEO | O que significa "AI PC"? É só hype? Leia a matéria no Canaltech.