Início Tecnologia Agora você pode soar o alarme caso a IA se comporte mal

Agora você pode soar o alarme caso a IA se comporte mal

34
0

Escrita Laboratório de IA cada semana significa que ocasionalmente encontro modelos de IA que se comportam de maneira ruim e bizarra. Normalmente, não há nada a ser feito a respeito, exceto compartilhar essas histórias com você. Mas isso poderá mudar em breve.

Um grupo de pesquisadores de IA criou um crowdsourcing siteRelatório de falhas para IA (FLARE-AI), para relatar e rastrear danos de IA. Se, por exemplo, um chatbot gerar malware ou uma receita para fazer bombas, vazar informações pessoais ou desencadear pensamentos delirantes nos usuários, o FLARE-AI poderá ser usado para soar o alarme. O código-fonte aberto por trás do sistema permite que outras pessoas verifiquem um problema e encaminhem relatórios para fabricantes de modelos, bem como para organizações como a MITRE, uma organização sem fins lucrativos que rastreia problemas com sistemas técnicos. É um pouco como o Downdetector, que compila relatórios de usuários em tempo actual para interrupções globais de serviços que afetam aplicativos e websites.

O web site é mais um passo no trabalho contínuo do grupo com relatórios de IA, sobre o qual escrevi pela primeira vez no ano passado. Os membros do grupo também consultaram sobre uma projeto de lei do Congresso anunciado em junhoo que faria com que o governo dos EUA assumisse um papel central no rastreamento deste tipo de mau comportamento da IA.

“No momento, não existe uma maneira centralizada e responsável de relatar falhas em sistemas de IA”, diz Avijit Ghosh, pesquisador de políticas de inteligência synthetic da HuggingFace que co-liderou o desenvolvimento do FLARE-AI com cientistas da computação. Elaine Zhu e Shayne Longpre.

O sistema de alarme foi desenvolvido em colaboração com 49 especialistas em IA de 32 organizações diferentes. Em um papel delineando o trabalho, os investigadores argumentam que a sua iniciativa pode revelar-se essential à medida que a IA for adoptada de forma mais ampla e à medida que os sistemas de agentes ganhem maior poder. A falta de uma forma consistente de relatar falhas de IA é um problema significativo, acreditam eles.

“Acho que é uma iniciativa muito boa”, diz Jessica Ji, pesquisadora do assume tank Heart for Safety and Rising Expertise. Ji diz que os investigadores têm razão ao observar que os mecanismos de comunicação existentes estão fragmentados e que os modelos de IA são caixas negras. “Apoio qualquer coisa que torne a IA mais transparente”, diz ela.

Embora bugs e problemas de segurança cibernética recebam muita atenção – especialmente ultimamente – Ghosh me disse que os problemas com sistemas de IA abrangem tópicos como danos psicológicos, discriminação ou preconceito e desinformação. Ele acrescenta que diferentes empresas têm padrões diferentes em relação a essas questões, o que significa que alguns problemas passam despercebidos. “Na ausência de um sistema de divulgação coordenado, não existem mecanismos externos para impor a transparência”, diz Ghosh.

Uma série de incidentes recentes envolvendo ferramentas populares de IA mostra quão facilmente a tecnologia pode estragar.

Esta semana, uma empresa chamada LayerX divulgou uma maneira para enganar navegadores da internet com infusão de IA, incluindo Atlas da OpenAI e Comet da Perplexity, para que saltem suas grades de proteção. Convencer o modelo de IA por trás do navegador de que ele estava jogando, por exemplo, poderia fazer com que o navegador se tornasse desonesto e tentasse hackear um web site. (As empresas responsáveis ​​pelos navegadores afetados corrigiram o problema, diz LayerX.) E em abril deste ano, Johann Rehberger, pesquisador de segurança, descobriu um maneira de enganar Claude a divulgar dados pessoais por meio de imagens geradas pelo ChatGTP.

A IA também introduz novos tipos de problemas bizarros. No ano passado, a OpenAI foi forçada a atualizar seus modelos depois de descobrir que eles eram excessivamente bajuladores, o que às vezes parecia encorajar o pensamento delirante.

Rumman Chowdhury, CEO e fundador da Humane Intelligence PBC, diz que o FLARE-AI pode ser uma forma útil para muitos desenvolvedores de IA implementarem formas de relatar problemas com suas ferramentas. Mas ela acrescenta que tais iniciativas muitas vezes trazem sérios desafios.

fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui