Siga ZDNET: Adicione-nos como fonte preferencial no Google.
Principais conclusões da ZDNET
- A última versão do Claude Mythos já avançou.
- Pesquisadores externos descobriram que ele alcançou várias inovações em testes.
- As capacidades de IA podem estar a melhorar muito mais rapidamente do que o previsto.
Claude Mythos da Anthropic, que a empresa afirma ser poderoso demais para ser lançado em geral, já parece ter ganhado novas capacidades.
Em um blog submit na quarta-feira, o UK AI Safety Institute (AISI) informou que havia testado uma versão mais recente do Mythos, que superou seus resultados anteriores e o GPT-5.5 da OpenAI – apenas um mês após o lançamento inicial do Mythos.
Além disso: Apple, Google e Microsoft unem-se ao Projeto Glasswing da Anthropic para defender o software program mais crítico do mundo
“O ponto de verificação mais recente do Mythos Preview completou ambas as nossas faixas cibernéticas, resolvendo a faixa ‘Os Últimos’ em 6 de 10 tentativas e a anteriormente não resolvida ‘Torre de Resfriamento’ em 3 de 10 tentativas”, escreveram os autores do weblog. “Esta foi a primeira vez que um modelo completou a segunda das nossas duas gamas cibernéticas.”
Quando a Anthropic anunciou pela primeira vez o Mythos Preview e o Mission Glasswing – a aliança de testes de segurança cibernética que formou com empresas de tecnologia rivais e laboratórios de IA, aos quais deu acesso limitado ao Mythos – no mês passado, a AISI do Reino Unido avaliouconcluindo que o modelo “representa um avanço em relação aos modelos de fronteira anteriores, num cenário onde o desempenho cibernético já estava a melhorar rapidamente”.
Essa perspectiva de terceiros ajudou a equilibrar as alegações de que o entusiasmo em torno da Mythos period apenas de advertising and marketing ou, por outro lado, sinalizava uma mudança catastrófica nas capacidades de IA. A verdade sobre o que o modelo pode fazer está provavelmente em algum lugar no meio.
Além disso: Como aprender Claude Code gratuitamente com os cursos de IA da Anthropic – um deles levou apenas 20 minutos
O teste atualizado do AISI também exemplifica que as melhorias de capacidade não estão restritas a lançamentos de modelos individuais, mas podem acontecer dentro de versões de um único modelo.
Uma ameaça cibernética em rápida aceleração
A AISI observou que os modelos de IA estão a avançar rapidamente na sua capacidade de lidar com tarefas cibernéticas, com sérias implicações para a segurança cibernética, especialmente dada a capacidade da Mythos para detectar vulnerabilidades de software program.
“Em fevereiro de 2026, estimamos internamente que a duração das tarefas cibernéticas que os modelos de IA poderiam concluir havia dobrado a cada 4,7 meses desde o remaining de 2024 – já uma aceleração em relação à nossa estimativa de 8 meses de novembro de 2025”, escreveram os autores do weblog. “Desde então, a AISI relatou dois novos modelos, Claude Mythos Preview e [OpenAI’s] GPT-5.5, que excedeu substancialmente ambas as tendências de taxa de duplicação.”
Além disso: a terceira grande falha do kernel Linux em duas semanas foi encontrada – graças à IA
Os autores acrescentaram que não está claro se essa tendência se manterá ou se estas descobertas indicam um aumento duradouro. Mythos e GPT-5.5 poderiam ser simplesmente rupturas notáveis no padrão geral de evolução do modelo.
Ainda assim, o AISI esclareceu que existem várias incógnitas que seus testes não puderam explicar. Os testes limitaram as tarefas a 2,5 milhões de tokens, o que permitiu aos pesquisadores comparar melhor os resultados de desempenho ao longo do tempo. Isso inerentemente “subestima o que os modelos de fronteira podem fazer”, escreveram eles.
“Mythos Preview e GPT-5.5 têm grandes barras de erro de limite superior devido a taxas de sucesso de quase 100% nas tarefas mais longas de nosso estreito conjunto cibernético, mesmo com o limite de token de 2,5 milhões”, continuou o weblog. “Nossas tarefas também não são longas o suficiente para determinar o quão acentuadamente a confiabilidade dos modelos se deterioraria em tarefas de maior duração. Isso coloca alguns dos modelos mais recentes no limite do que nosso estreito conjunto de testes pode medir.”
Além disso: coloquei o GPT-5.5 em um teste de 10 rodadas: ele marcou 93/100, perdendo pontos apenas pela exuberância
Embora isso torne difícil medir o ponto de falha do modelo, também significa que as taxas de sucesso do modelo nessas tarefas seriam muito mais altas sem o limite de token – tão altas, na verdade, que “os horizontes de tempo se tornam impossíveis de calcular”. Modelos com mais acesso a tokens e infraestrutura de agentes complexa seriam muito mais capazes.
“Um limite de token de 2,5 milhões é relativamente baixo – em nosso experimento de alcance cibernético usamos até 100 milhões de tokens e descobrimos que o desempenho provavelmente ainda melhoraria além desse orçamento, especialmente para modelos recentes, que se beneficiam desproporcionalmente de limites de token mais altos”, acrescentou o weblog.












