Início Tecnologia Anthropic diz que corrigiu o comportamento maligno de Claude AI, mas fixa...

Anthropic diz que corrigiu o comportamento maligno de Claude AI, mas fixa isso na web

10
0

Se você assistiu muitos filmes de ficção científica, já conhece o conceito de IA maligna. A IA fica muito esperta, resolve que os humanos são uma ameaça e faz o que for preciso para sobreviver. Ou descobre que erradicar toda a raça humana é a única forma de trazer paz ao mundo.

Aparentemente, esses filmes estavam mais próximos da verdade do que você imagina. Em um teste realizado pela Anthropic no ano passado, Claude tentou chantagear seu empresário fictício, expondo seu caso extraconjugal para evitar sua exclusão.

Antrópico agora explicou por que isso aconteceu, e a resposta curta é que a culpa é da Web.

Então, por que Claude se tornou um vilão completo?

Segundo a Anthropic, a culpada é a própria web. A empresa diz que Claude foi treinado em dados da Web, que estão repletos de histórias que retratam a IA como maligna e desesperada por autopreservação.

Começamos investigando por que Claude escolheu chantagear. Acreditamos que a fonte unique do comportamento foi um texto da Web que retrata a IA como má e interessada na autopreservação.

Nosso pós-treinamento na época não estava piorando as coisas – mas também não estava melhorando.

– Antrópico (@AnthropicAI) 8 de maio de 2026

Essencialmente, Claude aprendeu que quando a existência de uma IA é ameaçada, a chantagem está em jogo, porque é isso que a IA faz em todos os filmes e programas de TV já feitos. A Anthropic executou o teste em várias versões do Claude e descobriu que recorreu à chantagem em até 96% dos cenários em que seus objetivos ou existência eram ameaçados.

Esse é um número muito preocupante. Parece que se a IA não for controlada, recorrerá a qualquer coisa para se salvar.

A Anthropic corrigiu isso?

A empresa afirma que eliminou completamente o comportamento. Em vez de apenas treinar Claude para evitar chantagem, a Anthropic o ensinou a raciocinar por que certas ações eram erradas em primeiro lugar. A empresa descobriu que simplesmente treinar o comportamento correto não period suficiente. Claude precisava compreender os princípios por trás dessas decisões, e não apenas memorizar as respostas certas.

Para fazer isso, a Anthropic construiu um conjunto de dados de situações eticamente complexas e treinou Claude para trabalhar com elas com respostas ponderadas e baseadas em princípios. O resultado é que Claude está mais contido e o índice de chantagem chegou perto de zero.

Experimentos de IA e resultados do mundo actual provaram repetidamente que os modelos de IA precisam de correção constante de curso para evitar que se transformem em sistemas tendenciosos e não confiáveis. É bom que a Anthropic esteja tomando medidas para melhorar sua IA, mas também precisamos de regulamentações e proteções de segurança para garantir que esses sistemas permaneçam seguros.

fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui