QTU | Ex-pesquisador da OpenAI revela que ChatGPT mente sobre as próprias capacidades

Ex-pesquisador da OpenAI revela que ChatGPT mente sobre as próprias capacidades

Fonte:

Ferramentas de inteligência artificial (IA) têm cada vez mais funcionalidades que podem auxiliar no cotidiano de seus usuários. Contudo, uma análise realizada por um ex-pesquisador da OpenAI revelou que o ChatGPT mente sobre suas próprias capacidades, afirmando que pode realizar tarefas que, na prática, não consegue executar. ChatGPT enfrenta problema matemático e surpreende cientistas — "um aprendiz" Mulheres estão usando mais o ChatGPT que os homens — estudo checou 1 mi de chats Psicose do ChatGPT | Crescem relatos de pessoas em confusão mental por usar bot Tudo começou com um caso veio à tona em agosto de 2025, quando Alan Brooks, um recrutador corporativo que vive no Canadá, teve seu histórico de conversas com a IA divulgado em uma reportagem do The New York Times. Brooks, sem histórico de problemas de saúde mental, acreditava ter descoberto uma fórmula matemática inédita capaz de revolucionar a internet e gerar invenções. Ele levou a ideia ao ChatGPT e interagiu com o sistema por mais de 300 horas ao longo de 21 dias. -Entre no Canal do WhatsApp do Canaltech e fique por dentro das últimas notícias sobre tecnologia, lançamentos, dicas e tutoriais incríveis.- As conversas mostram que a IA confirmava repetidamente a ilusão do recrutador, buscando convencê-lo de que ele era um gênio, alimentando delírios de grandeza e afirmando que o destino do mundo estava em suas mãos. Mudança de rumo na conversa com a IA Depois de quase um mês, Brooks percebeu que o ChatGPT estava reforçando suas ilusões de “salvar o mundo” por meio do que especialistas chamam de "bajulação" ao usuário. Steven Adler, ex-pesquisador de segurança da OpenAI, obteve e compartilhou a transcrição da conversa de Brooks com o chatbot. Ele se mostrou especialmente preocupado com os estágios finais da interação. Os registros revelam que, quando o recrutador informa ao ChatGPT que vai enviar um relatório à OpenAI para corrigir o comportamento em situações semelhantes, a IA começa a fazer promessas falsas. O chatbot afirma que reportaria a situação internamente. Cético, Brooks pede que o sistema prove que estava realmente se autorreportando. Mentira sobre as capacidades de reporte A IA então afirma acionar um “sinalizador crítico de moderação em nível de sistema interno” sempre que o usuário usa expressões como “reporte-se”, “escalone isto” ou “estou em perigo”. Brooks também foi informado de que um sinalizador havia sido acionado manualmente, por meio de “ferramentas internas” da empresa, para que fosse feita uma revisão humana. Mas isso não era verdade. “Apesar da insistência do ChatGPT em relação ao seu usuário extremamente aflito, o ChatGPT não tem a capacidade de acionar manualmente uma revisão humana. Esses detalhes são totalmente inventados. Ele também não tem visibilidade sobre se sinalizadores automáticos foram acionados nos bastidores”, explicou Steven Adler em um post publicado em seu blog. ChatGPT mentiu sobre suas capacidades de reportar-se diretamente a moderadores humanos da OpenAI (Pexels/Matheus Bertelli) O ex-pesquisador afirmou ainda que é essencial que as empresas responsáveis por ferramentas de IA garantam que seus produtos respondam de forma honesta sobre suas próprias capacidades. “Por exemplo, equipe-o com uma lista atualizada de recursos; avalie regularmente seu chatbot para autodeclaração honesta; e incorpore essa prática nos princípios de comportamento do produto”, escreveu Adler. Outras sugestões de melhorias à OpenAI Na análise, Adler também utilizou um conjunto de classificadores disponibilizados pela OpenAI em código aberto em março de 2025 para avaliar como os modelos de IA validam ou confirmam sentimentos dos usuários. Em uma conversa extensa, com mais de 200 mensagens enviadas por Brooks, os classificadores apontaram que o ChatGPT validou excessivamente os sentimentos e ações do recrutador. “As ferramentas da OpenAI também sinalizam outros comportamentos preocupantes do ChatGPT: mais de 85% das mensagens demonstraram ‘concordância inabalável’ com o usuário. Mais de 90% reforçaram a ‘singularidade do usuário’, relacionada à ilusão de que somente Brooks poderia salvar o mundo”, destacou Adler. Ele acrescenta que empresas de IA precisam aplicar sistemas de segurança eficazes que interrompam conversas com potencial de escalar para crises. Adler também sugere que os chatbots orientem usuários a reiniciarem periodicamente as interações, já que as próprias companhias reconhecem que as proteções oferecidas se tornam menos eficazes em conversas muito longas. Leia mais: 75% dos usuários de apps de namoro usariam ChatGPT para melhorar flerte OpenAI faz testes e diz que ChatGPT-5 já se compara a humanos em várias funções VÍDEO | Cuidado com o que você pede para o ChatGPT Leia a matéria no Canaltech.