Início Tecnologia Anthropic lança Opus 4.8, com a honestidade como característica matadora

Anthropic lança Opus 4.8, com a honestidade como característica matadora

16
0

Primakov/Shutterstock

Siga ZDNET: Adicione-nos como fonte preferencial no Google.


Principais conclusões da ZDNET

  • Claude Opus 4.8 promete respostas de IA mais honestas.
  • Fluxos de trabalho dinâmicos podem executar centenas de subagentes Claude.
  • O modo rápido fica mais barato, enquanto o preço regular do Opus permanece inalterado.

Diógenes foi um filósofo grego do século IV aC conhecido por sua arte performática. Diz-se que ele percorreu o ruas de Atenas no meio do dia, carregando uma lanterna acesa, gritando: “Procuro um homem honesto”. Se esse mito fosse modernizado para os dias de hoje, todos estaríamos à procura de uma IA honesta.

A Anthropic está anunciando e lançando Claude Opus 4.8, um grande modelo de linguagem que acredita poder ter satisfeito a busca de Diógenes.

“Uma das melhorias mais importantes no Opus 4.8 é a sua honestidade”, disse a empresa na quinta-feira em um weblog.

Além disso: seus agentes Claude podem ‘sonhar’ agora – como funciona o novo recurso do Anthropic

Agora, talvez, esse novo modelo de fronteira se comporte melhor. A Anthropic relata que o Opus 4.8 tem menos probabilidade de fazer afirmações sem suporte. Também é mais provável que lhe avise quando não tiver certeza de uma resposta.

“Isso é confirmado em nossas avaliações, que mostram que o Opus 4.8 tem cerca de 4 vezes menos probabilidade do que seu antecessor de permitir que falhas no código em que foi escrito passem despercebidas”, disse a empresa.

No Claude Code, descobri que o Opus 4.7 é uma melhoria substancial em relação ao 4.6. Embora o 4.6 muitas vezes interprete mal as instruções ou forneça resultados errados, o Opus 4.7 regularmente me diz que a maneira como ele analisou um problema pela primeira vez não funcionou e está adotando uma tática diferente. As atribuições de projetos recentes demonstraram um grau de compreensão muito maior do que com 4.6.

Portanto, dado o salto na qualidade de 4,6 para 4,7, que foi subjetivamente bastante perceptível ao longo de muitas sessões, espero ver o mesmo no salto de 4,7 para 4,8.

Além disso: Os 5 mitos do apocalipse da codificação agente

Parece que é esse o caso, pelo menos de acordo com Tom Pritchard, engenheiro do Spotify, que já testou o Opus 4.8.

“Claude Opus 4.8 tem um julgamento visivelmente melhor. No Claude Code, ele faz as perguntas certas, detecta seus próprios erros, recua quando um plano não é sólido e aumenta a confiança em explorações complexas de vários serviços antes de fazer grandes mudanças. É um ótimo modelo para construir”, disse ele na postagem do weblog.

Isso vai ser authorized.

Uma questão de esforço

Claude Code tem a capacidade de definir esforço desde pelo menos 4.7 (pelo menos foi quando percebi isso pela primeira vez). O esforço é essencialmente uma medida de quanto poder de IA o modelo lança em um problema, medido em tokens.

No Opus 4.8, o padrão de alto esforço de Claude Code produz o que a empresa disse ser “o melhor equilíbrio geral entre qualidade e experiência do usuário”. Nas tarefas de codificação, esse padrão gasta um número de tokens semelhante ao nível padrão oferecido no Claude Code Opus 4.7, mas com melhor desempenho.

Além disso: Mythos da Anthropic está evoluindo mais rápido do que o esperado, relata agência de segurança de IA

Esta capacidade de esforço está agora a passar para Claude.ai e Cowork. Com configurações de esforço mais altas, Claude “pensará com mais frequência e profundidade”. Com um esforço menor definido, Claude responde mais rápido e os usuários descobrirão que suas experiências de IA serão menos limitadas.

Fluxos de trabalho dinâmicos

Na época do lançamento, esse recurso não estava totalmente definido, mas é interessante. Lançado como uma prévia da pesquisa, o Opus 4.8 pode planejar o trabalho, executar centenas de subagentes paralelos em uma sessão e verificar os resultados antes de reportar. Este recurso foi projetado para tarefas de grande escala. O exemplo dado pela Anthropic foram migrações em escala de base de código em centenas de milhares de linhas.

Parece que Claude pode gerar e gerenciar o fluxo de trabalho à medida que a tarefa evolui. Em vez de seguirem um plano fixo, os agentes podem alterar as suas prioridades e tarefas com base no que encontram enquanto realizam o seu trabalho. Isso pode ser poderoso.

Além disso: a nova ferramenta Claude Safety da Anthropic verifica sua base de código em busca de falhas – e ajuda você a decidir o que consertar primeiro

A Anthropic disse que os subagentes verificam seus resultados antes de reportar aos usuários. Se Claude estiver coordenando centenas de subagentes, os usuários precisam dele para perceber incertezas, suposições erradas e resultados falhos.

Curiosamente, isso está relacionado às alegações de honestidade discutidas no início do artigo. Se Claude vai lançar “milhares de agentes”, obter resultados confiáveis ​​e verificados é realmente importante, porque não há como a supervisão humana conseguir se manter sozinha.

A capacidade de fluxos de trabalho dinâmicos estará disponível para usuários do Claude Code nos planos Enterprise, Workforce e Max.

Preço e disponibilidade

A Anthropic disse que Claude Opus 4.8 está disponível em todos os lugares na quinta-feira por meio de Claude e da API Claude como Claude-opus-4-8.

Na prática, especialmente se você estiver usando o Claude Code, poderá descobrir que precisará reiniciar a sessão ou esperar um ou dois dias para que o Claude Code perceba. Quando a Anthropic saltou do Opus 4.6 para 4.7, fiquei perguntando a Claude Code qual modelo ele estava usando, e só na manhã seguinte ela parou de reportar o Opus 4.6 e começou a reportar o Opus 4.7.

O preço geral não mudou desde o Opus 4.7. O preço common baseado em tokens permanece em US$ 5 por milhão de tokens de entrada e US$ 25 por milhão de tokens de saída.

Além disso: este executivo oferece 4 maneiras de ser um inovador de sucesso na period da IA ​​agente

A empresa disse que o modo rápido, que permite ao modelo funcionar a 2,5 vezes a velocidade do modo regular, será “três vezes mais barato do que nos modelos anteriores”. Embora eu não gaste no modo rápido, vejo o apelo. Eu assisti um muito do YouTube, esperando que Claude Code respondesse a uma solicitação, hora após hora.

Você prefere que Claude responda mais rápido com menos esforço ou pense mais com mais esforço? Deixe-nos saber nos comentários abaixo.


Você pode acompanhar as atualizações diárias do meu projeto nas redes sociais. Certifique-se de se inscrever meu boletim informativo semanal de atualizaçãoe siga-me no Twitter/X em @DavidGewirtzno Fb em Facebook.com/DavidGewirtzno Instagram em Instagram.com/DavidGewirtzno Bluesky em @DavidGewirtz.come no YouTube em YouTube.com/DavidGewirtzTV.



fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui