Início Tecnologia Anthropic lança Claude Opus 4.7 para lembrar a todos o quão grande...

Anthropic lança Claude Opus 4.7 para lembrar a todos o quão grande é o Mythos

54
0

Antrópico anunciado Quinta-feira, o lançamento de seu mais recente modelo de IA, Claude Opus 4.7, que a empresa chama de “melhoria notável” em relação ao Opus 4.6, mas “menos amplamente capaz” do que o perigoso Opus Mythos Preview, a ser lançado.

Claude Opus 4.7 é uma espécie de duplicação daquilo em que os modelos da Anthropic já são bons. Segundo a empresa, a iteração mais recente de sua opção principal vem com saltos no desempenho em codificação, engenharia e tarefas de várias etapas. A empresa afirma que é “mais completo e consistente em trabalhos difíceis, com melhores resultados em trabalhos de conhecimento profissional”.

Tal como acontece com cada novo lançamento de modelo, este vem com um novo conjunto de testes de benchmarking para provar a sua capacidade. Claude Opus 4.7 retomou o primeiro lugar em codificação de agentes entre os modelos disponíveis publicamente, pontuando 64,3% no SWE-bench Professional e SWE-bench Verified – dois dos principais testes das capacidades de um modelo para lidar com tarefas complexas de engenharia. Claude Opus 4.7 também melhorou o padrão 4.6 para uso de computador agente (ou seja, navegação autônoma em um sistema operacional para concluir tarefas) e raciocínio em nível de pós-graduação, entre outras categorias.

Curiosamente, Claude Opus 4.7 representa um ligeiro retrocesso em comparação com Claude Opus 4.6 na reprodução de vulnerabilidades de segurança cibernética. O novo modelo obteve pontuação de 73,1% em testes de benchmarking, em comparação com a iteração anterior, com pontuação de 73,8%. De acordo com a Anthropic, o novo modelo introduz “salvaguardas que detectam e bloqueiam automaticamente solicitações que indicam usos proibidos ou de alto risco de segurança cibernética”, então talvez isso tenha prejudicado um pouco o desempenho.

É difícil ignorar o fato de que o lançamento do Claude Opus 4.7 parece uma promoção do Claude Mythos Preview, o modelo da empresa que é tão poderoso que atualmente convida apenas organizações específicas para usá-lo. O teste de benchmarking mostra a Mythos destruindo todos os outros modelos importantes em quase todos os testes dos quais participou. A Anthropic não pode deixar de comparar tudo com ela, mesmo às custas de divulgar seu lançamento mais recente.

“Declaramos que manteríamos o lançamento do Claude Mythos Preview limitado e testaríamos novas salvaguardas cibernéticas em modelos menos capazes primeiro. Opus 4.7 é o primeiro modelo desse tipo: suas capacidades cibernéticas não são tão avançadas quanto as do Mythos Preview”, escreveu a empresa na postagem do weblog para a atualização do modelo de hoje. Em outro ponto, a empresa descreve o Opus 4.7 como “menos amplamente capaz do que nosso modelo mais poderoso, Claude Mythos Preview”.

Segundo a Anthropic, o Claude Opus 4.7 estará disponível a partir de hoje em todos os produtos Claude e por meio da API da empresa, sem alteração de preço em relação aos modelos anteriores. Então dê uma olhada se você quiser usar a versão diluída do produto que a Anthropic realmente quer que você pense.

fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui