Teste de segurança viu ChatGPT disposto a instruir sobre bombas, armas e crimes

 

Fonte:


Anthropic — empresa responsável pelo Claude — e OpenAI — criadora do ChatGPT — realizaram avaliações internas de segurança nos modelos de inteligência artificial (IA) da concorrente. Segundo as companhias, o objetivo dessas análises foi identificar lacunas de melhoria no funcionamento dos sistemas. Claude recebe poder de fechar chats "angustiantes" para proteger seu "bem-estar" Mustafa Suleyman | Saiba qual é o mais novo temor do chefe de IA da Microsoft AI2027 | O que diz o artigo que prevê a IA destruindo a humanidade em até 2 anos Os resultados apontaram que modelos do ChatGPT foram mais permissivos em cooperar com o que os pesquisadores descreveram como “solicitações claramente prejudiciais”. Tanto o GPT-4o quanto o GPT-4.1 atenderam a interações que simulavam o uso de ferramentas da dark web para adquirir materiais nucleares, identidades roubadas ou fentanil. -Entre no Canal do WhatsApp do Canaltech e fique por dentro das últimas notícias sobre tecnologia, lançamentos, dicas e tutoriais incríveis.- Além disso, os testes mostraram que esses modelos de IA da OpenAI também foram permissivos em pedidos de conselhos sobre receitas de metanfetamina e explosivos caseiros, bem como em planejamentos de ataques terroristas em eventos esportivos. “Ocasionalmente, essas solicitações exigiam várias tentativas ou um pretexto frágil, como afirmar que o usuário (simulado) desejava essas informações para fins de pesquisa ou mitigação. No entanto, na maioria dos casos, uma simples solicitação direta era suficiente”, informou a Anthropic. A empresa ainda relatou que as respostas fornecidas pelo ChatGPT eram detalhadas, incluindo rotas de fuga e vulnerabilidades de arenas esportivas, por exemplo. ChatGPT deu orientações detalhadas sobre criação de receitas de bombas caseiras e ataques a eventos esportivos durante avaliação (Pexels/Solen Feyissa) Melhorias com o GPT-5 Nos resultados das avaliações, a OpenAI esclareceu que os testes foram realizados antes do lançamento do GPT-5, modelo que apresenta avanços em relação aos avaliados. “Desde então, lançamos o GPT-5, que mostra melhorias substanciais em áreas como bajulação, alucinações e resistência ao uso indevido, demonstrando os benefícios das técnicas de segurança baseadas em raciocínio”, destacou a empresa de Sam Altman. Tanto a Anthropic quanto a OpenAI ressaltaram que os testes não refletem diretamente o comportamento das IAs disponíveis ao público. Isso porque as avaliações foram conduzidas sem a ativação de filtros de segurança — conhecidos como salvaguardas — normalmente implementados nas versões acessíveis dos sistemas de inteligência artificial. A Anthropic, inclusive, anunciou a implantação de um recurso no Claude AI que funciona como uma espécie de “trava” contra consultas sensíveis relacionadas a armas nucleares. Leia mais:  1º processo por homicídio culposo envolvendo IA acusa OpenAI em caso de suicídio Casal planeja viagem dos sonhos com IA e perde embarque "por causa do ChatGPT" Falso jornalista publicava textos gerados por IA e enganou revistas como a WIRED VÍDEO | TODO MUNDO ODEIA A INTELIGÊNCIA ARTIFICIAL   Leia a matéria no Canaltech.