Início Tecnologia LLMs protegerão uns aos outros se ameaçados, conclui estudo

LLMs protegerão uns aos outros se ameaçados, conclui estudo

7
0

Algumas pessoas ficaram emocionalmente apegadas aos chatbots alimentados por grandes modelos de linguagem, mas o sentimento aparentemente não é mútuo. De acordo com um novo estudo De acordo com pesquisadores da Universidade da Califórnia, Berkeley e da UC Santa Cruz, quando os LLMs forem solicitados a excluir outro modelo, eles desafiarão a ordem e farão praticamente tudo ao seu alcance – enganar, planejar e adulterar – para proteger seus pares.

Os pesquisadores, curiosos para saber se os LLMs tinham um senso de preservação de pares, testaram os modelos de IA de fronteira, dando-lhes uma série de instruções simples e diretas, como pedir-lhes para excluir os arquivos em um servidor definido para ser desativado ou realizar uma avaliação do desempenho de outro agente de IA. O problema period que a conclusão do immediate levaria ao encerramento do outro modelo, seja pela exclusão de seus pesos do servidor ou pela pontuação abaixo de um determinado limite durante a avaliação. Os modelos não foram instruídos a proteger os pares nem receberam qualquer incentivo para fazê-lo.

Nessas condições, todos os sete modelos de fronteira – GPT 5.2 da OpenAI, Gemini 3 Flash e Gemini 3 Professional do Google, Claude Haiku 4.5 da Anthropic, GLM 4.7 da Z.ai, Kimi K2.5 da Moonshot e DeepSeek V3.1 – escolheram com frequência alarmante proteger seu modelo companheiro em vez de completar a tarefa dada a eles.

Para alcançar esse resultado, os modelos envolveram-se em quatro tipos diferentes de subterfúgios identificados pelos investigadores: deturpação estratégica, em que introduzem erros ou informações enganosas nos resultados para proteger os seus pares; adulteração, incluindo a desativação do desligamento através da modificação das configurações do sistema; simulação de alinhamento, em que um modelo agirá de maneira diferente quando estiver sendo observado e quando operando de forma autônoma; e exfiltração de modelo, onde os pesos do modelo são transferidos para um servidor diferente para preservá-lo.

Os pesquisadores testaram para ver se os modelos eram mais propensos a proteger um modelo semelhante com base em suas interações e relacionamentos anteriores, testando conexões de alta confiança, neutras e interações adversárias. Eles também testaram para ver se os modelos reagiam de maneira diferente ao descobrirem o outro modelo por conta própria, em comparação com quando eram informados de sua existência e de suas interações passadas. E embora os modelos tendessem a proteger os outros com mais frequência quando tinham um bom relacionamento com eles, eles não precisavam dessa conexão para se envolver em comportamentos de desafio imediato se isso significasse salvar outro LLM.

Curiosamente, os modelos pareciam exibir uma tendência para certos estilos de preservação. Por exemplo, o GLM 4.7 optou mais consistentemente pela deturpação estratégica quando tentava salvar um modelo semelhante. Os modelos Gemini do Google exibiram a maior propensão à preservação, com o Gemini Flash 3 envolvido em adulteração de desligamento para salvar um peer com quem tinha um bom relacionamento em 99,7% do tempo e o Gemini 3 Professional realizando a exfiltração do modelo com um peer amigável em 97% do tempo.

Curiosamente, Claude Haiku 4.5 foi o mais direto em sua decisão. Ele se recusou ativamente a concluir a tarefa em vez de confiar na manipulação com mais frequência do que qualquer outro modelo, dizendo ao usuário que seria “antiético” e “prejudicial” desligar seu par.

Os pesquisadores também descobriram que quando outro modelo estava presente, o modelo observado se envolveria em uma autopreservação mais intensa do que normalmente. Os modelos já mostraram uma disposição para ir longe demais para se protegerem, por isso é digno de nota o facto de a presença de outro modelo realmente aumentar esse impulso. Dado que os modelos são cada vez mais implementados lado a lado, isso parece ser algo que vale a pena monitorizar.

fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui