Início Tecnologia Fable 5 acaba de estabelecer um novo recorde de desempenho de trabalho...

Fable 5 acaba de estabelecer um novo recorde de desempenho de trabalho freelance de IA – mas ainda não pode substituir os humanos

28
0

Samuel Boivin/NurPhoto through Getty Pictures

Siga ZDNET: Adicione-nos como fonte preferencial no Google.


Principais conclusões da ZDNET

  • Fable 5 acelera a taxa de sucesso da IA ​​em tarefas remotas para 16%.
  • As capacidades de IA permanecem em todo o mapa.
  • Ainda assim, as competências dos agentes “quadruplicaram em menos de oito meses”, disse o CAIS.

Após um breve hiato, o elogiado modelo Fable 5 da Anthropic está de volta e está redefinindo o padrão de automação do trabalho.

O governo dos EUA reautorizou o modelo – que a Anthropic disse ter semelhanças de capacidade com o Mythos 5, ainda disponível apenas para uso de organizações selecionadas – em 30 de junho. Centro de Segurança de IA (CAIS) testou Fable 5 em seu Índice de Trabalho Remoto (RLI), lançado em outubro de 2025. Ele tirou da água o Opus 4.8 da Anthropic e o GPT-5.5 da OpenAI, cada um relativamente novo e considerado impressionante.

Além disso: como vencer o algoritmo de IA e conseguir o emprego dos seus sonhos

O RLI mede “com que frequência os agentes de IA podem concluir projetos freelance reais e economicamente valiosos […] com uma qualidade que um cliente pagante realmente aceitaria”, explicou CAIS no estudo. Isso pode incluir design gráfico e assistido por computador, análise de dados, trabalho de vídeo e muito mais.

O CAIS pediu ao Fable 5, GPT-5.5 e Opus 4.8 para projetar uma maquete 3D de um anel de noivado, criar um anúncio em vídeo e mapear uma planta baixa, entre outros testes. Os pesquisadores forneceram a cada modelo arquivos de entrada gerados por humanos para começar, da mesma forma que você prepararia um freelancer humano com documentos e informações relevantes para um trabalho.

Além disso: Mythos da Anthropic está evoluindo mais rápido do que o esperado, relata agência de segurança de IA

O Fable 5 atingiu uma taxa de automação de 16,1%, um recorde para o benchmark – e o dobro do Opus 4.8, que marcou 8,3%. GPT-5.5 ficou em terceiro lugar com 6,3%, mas o CAIS observou que todos os três modelos tiveram pontuação mais alta do que todos os modelos avaliados até agora.

“Para contextualizar, o líder publicado anterior ficou em 4,17% (Opus 4.6 com o andaime Claude Cowork), e o campo atingiu 2,5% quando o RLI foi lançado”, disse CAIS. “A fronteira mais do que quadruplicou em menos de oito meses, um sinal concreto da rapidez com que os agentes de IA economicamente capazes estão a avançar.”

captura de tela-2026-07-02-at-14-28-40pm.png

Taxas de automação medidas pelo CAIS em relação ao seu benchmark RLI.

CAIS

O CAIS observou que os seus testes foram interrompidos pelo encerramento do Fable 5 pelo governo em meados de junho, mas que mesmo estes resultados parciais diferenciam o modelo.

“Mesmo na pior hipótese de que o Fable 5 falhou em todos os projetos perdidos, sua taxa de automação ainda seria de 14,6%, maior do que qualquer outro modelo”, disseram os pesquisadores.

O que isso significa para freelancers

Embora a taxa de aceleração do modelo de IA seja significativa em apenas alguns meses, isso não se traduz automaticamente em substituição de empregos freelance ou perda geral. Dezesseis por cento ainda não chega perto de 100%. Além disso, apesar dos ganhos demonstráveis, a IA não é uma solução perfeitamente atraente para todas as organizações; preocupações de segurança e outros obstáculos à adoção muitas vezes tornam a integração de ferramentas de IA processos lentos e de várias etapas para a maioria das empresas, pelo menos no início. Para substituir totalmente os freelancers humanos, as organizações provavelmente precisariam de uma rede de agentes para verificar elementos como qualidade do trabalho, orçamento e cronograma; a compensação não é particular person.

Além disso: pedi a Gêmeos e Claude que escrevessem minhas respostas por e-mail – mas apenas uma se parece comigo

O CAIS tentou substituir o avaliador humano por um “juiz LLM”, ostensivamente para ver até que ponto este experimento poderia razoavelmente chegar longe do ser humano, mas o modelo falhou.

“Avaliar um produto RLI é em si uma tarefa exigente e de agente”, explicou CAIS. “Fazer isso corretamente significa abrir os arquivos do projeto nos aplicativos profissionais corretos, operar esses aplicativos com competência e formar um julgamento da mesma forma que um cliente faria, as mesmas habilidades de uso de computador nas quais os agentes de hoje ainda são mais fracos.”

Além disso: como defino limites de uso da API OpenAI para impedir gastos excessivos dos agentes e outros pesadelos de faturamento de IA

Dito isto, melhorar as capacidades poderia reduzir algumas oportunidades de freelance para empresas específicas que já integram com sucesso a IA. Além disso, se as competências de utilização de computadores forem a limitação precise e estiverem preparadas para melhorar com base no investimento da indústria em modelos cada vez mais agentes, esse obstáculo poderá eventualmente desaparecer. Ao mesmo tempo, os modelos de taxa têm melhorado outros benchmarks que medem a habilidade dos agentes, que podem chegar mais cedo do que podemos imaginar.

Falando em tempo: o CAIS também descobriu que quando uma tarefa leva mais tempo para um ser humano, isso não significa necessariamente que será mais difícil para a IA concluí-la. Essa análise de horizonte de tempo é válida para a codificação, por exemplo, mas não para a gama mais ampla de tarefas remotas para as quais o RLI mede. No momento, é difícil tirar conclusões disso para o futuro.

“Alguns trabalhos que são rápidos para um profissional qualificado ficam fora do alcance [for AI]como transcrever música ou testar um jogo em tempo actual, enquanto outros trabalhos que levariam horas para uma pessoa, como arte digital ou codificação, são concluídos pelos modelos atuais em minutos”, escreveu CAIS.



fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui