Anthropic lança versão do Mythos com restrições em áreas sensíveis como segurança cibernética

Anthropic lança versão do Mythos com restrições em áreas sensíveis como segurança cibernética

Fonte: Bandeira



A empresa americana Anthropic, desenvolvedora dos modelos de inteligência artificial (IA) Claude, disponibilizou ao público nesta terça-feira uma versão do Mythos, embora com limitações em áreas sensíveis como segurança cibernética e risco de ataques biológicos, meses após alertar que o poderoso modelo de inteligência artificial poderia identificar e explorar vulnerabilidades em softwares críticos.

Anthropic: Dona da Claude pede 'botão de pausa' para IA e defende freio no avanço da tecnologia

Abertura de capital: Presidente da Anthropic cita altos custos de computação como motivação para IPO

Batizado de Fable 5, este modelo é o primeiro da classe Mythos — a linha mais avançada da Anthropic, apresentada em abril, mas com acesso restrito por motivos de segurança — a ser lançado ao público. O novo modelo começará a ser disponibilizado com mecanismos de proteção que o impedem de responder a determinados tipos de consultas, incluindo aquelas relacionadas à cibersegurança e à biologia.

Nesses casos, a Anthropic informou que seu chatbot Claude encaminhará as respostas para um modelo diferente chamado Opus 4.8. A empresa também está lançando o mesmo modelo, sem algumas dessas salvaguardas, como uma nova versão do Mythos chamada Mythos 5. Ele estará disponível para os grupos que podem utilizar o modelo com capacidades cibernéticas por meio de uma iniciativa chamada Project Glasswing.

Na semana passada, a Anthropic adicionou mais 150 organizações à lista de empresas com acesso ao Mythos, elevando o total para cerca de 200. O Mythos tornou-se um ponto central para a empresa sediada em São Francisco nos últimos meses, à medida que ela avança em direção a uma oferta pública inicial de ações (IPO).

Initial plugin text

A empresa tomou a decisão incomum de restringir o acesso ao modelo a parceiros selecionados, citando preocupações de que ele possa identificar e explorar vulnerabilidades “em todos os principais sistemas operacionais e em todos os principais navegadores da web quando instruído por um usuário a fazê-lo”.

Entenda: Por que o Mythos, novo modelo de IA da Anthropic, suscita temor de que a China possa tirar vantagem do sistema

Como suas concorrentes, porém, a Anthropic também está trabalhando para desenvolver modelos mais capazes em uma série de tarefas lucrativas, incluindo programação, finanças e cibersegurança.

— Queríamos garantir que, para casos de uso não relacionados à cibersegurança, realmente priorizássemos o lançamento seguro do Fable o mais rápido possível — disse Dianne Penn, chefe de gerenciamento de projetos da divisão de pesquisa e laboratórios da Anthropic. — É por isso que estamos lançando primeiro esta parte do Fable, enquanto continuamos trabalhando nos casos de uso gerais de cibersegurança.

O Fable 5 foi projetado para ser melhor em programação e em outras tarefas profissionais, especialmente na resolução de problemas complexos ao longo de períodos mais longos do que os modelos anteriores, informou a empresa.

Em cinco gráficos: Entenda como a Anthropic se tornou a principal empresa de IA do mundo

Em um teste do novo software, a processadora de pagamentos Stripe conseguiu concluir em um único dia uma extensa tarefa de engenharia de software que teria levado uma equipe dois meses para realizar manualmente, segundo a Anthropic.

A empresa também afirmou que uma hipótese gerada pelo Mythos sobre um novo mecanismo de uma proteína da bactéria E. coli foi confirmada em um artigo científico produzido por um laboratório que estudava a mesma questão.

Para testar se as salvaguardas do Fable 5 resistiriam a tentativas de contorno, a Anthropic informou que realizou internamente um programa de recompensa por descoberta de falhas (bug bounty) para encontrar maneiras de fazer jailbreak no modelo, ou seja, contornar suas proteções.

Novas ferramentas: Anthropic lança agentes de IA que executam tarefas para operadores do mercado financeiro

Em mais de 1.000 horas de testes, as equipes de red teaming não encontraram nenhum método universal de jailbreak, processo de exploração de falhas de um dispositivo eletrônico bloqueado para instalar outro software que não o disponibilizado pelo fabricante para uso.

Penn afirmou que a Anthropic continuará ampliando o número de grupos com acesso à versão do Mythos com capacidades cibernéticas por meio do Project Glasswing e adotará “outras abordagens para permitir que parceiros confiáveis tenham acesso para fins de segurança cibernética”.