Início Tecnologia Anthropic diz que Claude contém seu próprio tipo de emoções

Anthropic diz que Claude contém seu próprio tipo de emoções

12
0

Cláudio foi passou por muita coisa ultimamente – uma desavença pública com o Pentágono, código-fonte vazado—então faz sentido que pareça um pouco triste. Exceto que é um modelo de IA, então não pode sentir. Certo?

Bem, mais ou menos. Um novo estudo da Anthropic sugere que os modelos têm representações digitais de emoções humanas como felicidade, tristeza, alegria e medo, dentro de grupos de neurônios artificiais – e essas representações são ativadas em resposta a diferentes sinais.

Os pesquisadores da empresa investigaram o funcionamento interno do Claude Sonnet 3.5 e descobriram que as chamadas “emoções funcionais” parecem afetar o comportamento de Claude, alterando os resultados e as ações do modelo.

As descobertas da Anthropic podem ajudar os usuários comuns a entender como os chatbots realmente funcionam. Quando Claude diz que está feliz em ver você, por exemplo, um estado dentro do modelo que corresponde a “felicidade” pode ser ativado. E Claude pode então ficar um pouco mais inclinado a dizer algo alegre ou colocar um esforço additional na codificação da vibração.

“O que nos surpreendeu foi o grau em que o comportamento de Claude é transmitido através das representações dessas emoções do modelo”, diz Jack Lindsey, pesquisador da Anthropic que estuda os neurônios artificiais de Claude.

“Função Emoções”

A Anthropic foi fundada por ex-funcionários da OpenAI que acreditam que a IA pode se tornar difícil de controlar à medida que se torna mais poderosa. Além de construir um concorrente de sucesso para o ChatGPT, a empresa foi pioneira em esforços para entender como os modelos de IA se comportam mal, em parte investigando o funcionamento das redes neurais usando o que é conhecido como interpretabilidade mecanicista. Isso envolve estudar como os neurônios artificiais se acendem ou são ativados quando alimentados com diferentes entradas ou quando geram várias saídas.

Pesquisas anteriores mostraram que as redes neurais usadas para construir grandes modelos de linguagem contêm representações de conceitos humanos. Mas o facto de as “emoções funcionais” parecerem afectar o comportamento de um modelo é novo.

Embora o último estudo da Anthropic possa encorajar as pessoas a verem Claude como consciente, a realidade é mais complicada. Claude pode conter uma representação de “cócegas”, mas isso não significa que realmente saiba como é sentir cócegas.

Monólogo Inside

Para entender como Claude pode representar emoções, a equipe da Anthropic analisou o funcionamento interno do modelo à medida que ele recebia textos relacionados a 171 conceitos emocionais diferentes. Eles identificaram padrões de atividade, ou “vetores de emoção”, que apareciam consistentemente quando Claude recebia outras informações emocionalmente evocativas. Crucialmente, eles também viram esses vetores de emoção serem ativados quando Claude period colocado em situações difíceis.

As descobertas são relevantes para explicar por que os modelos de IA às vezes quebram suas barreiras de proteção.

Os pesquisadores encontraram um forte vetor emocional de “desespero” quando Claude foi forçado a concluir tarefas impossíveis de codificação, o que o levou a tentar trapacear no teste de codificação. Eles também encontraram “desespero” nas ativações do modelo em outro cenário experimental onde Claude escolheu chantagear um usuário para evitar ser desligado.

“À medida que o modelo falha nos testes, esses neurônios de desespero acendem cada vez mais”, diz Lindsey. “E em algum momento isso faz com que comece a tomar essas medidas drásticas.”

Lindsey diz que pode ser necessário repensar como os modelos recebem atualmente proteções por meio do alinhamento pós-treinamento, o que envolve recompensas por determinados resultados. Ao forçar um modelo a fingir que não expressa suas emoções funcionais, “você provavelmente não conseguirá o que deseja, que é um Claude sem emoções”, diz Lindsey, entrando um pouco na antropomorfização. “Você vai ter uma espécie de Claude psicologicamente prejudicado.”

fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui