OpenAI na terça-feira anunciou a próxima fase de sua estratégia de segurança cibernética e um novo modelo projetado especificamente para uso por defensores digitais, o GPT-5.4-Cyber.
A notícia surge na sequência de um anúncio na semana passada da concorrente Antrópico de que o seu novo modelo Claude Mythos Preview só está a ser lançado de forma privada por enquanto – porque, diz a empresa, pode ser explorado por hackers e maus atores. A Anthropic também anunciou uma coalizão da indústria, incluindo concorrentes como o Google, focada em como os avanços na IA generativa em todo o campo impactarão a segurança cibernética.
A OpenAI parecia estar tentando diferenciar sua mensagem na terça-feira, adotando um tom menos catastrófico e elogiando suas proteções e defesas existentes, ao mesmo tempo em que insinuava a necessidade de proteções mais avançadas no longo prazo.
“Acreditamos que a classe de salvaguardas em uso hoje reduz suficientemente o risco cibernético para apoiar a ampla implantação dos modelos atuais”, escreveu a empresa em uma postagem no weblog. “Esperamos que as versões destas salvaguardas sejam suficientes para os próximos modelos mais poderosos, enquanto os modelos explicitamente treinados e tornados mais permissivos para o trabalho de segurança cibernética exigem implementações mais restritivas e controlos apropriados. A longo prazo, para garantir a suficiência contínua da segurança da IA na segurança cibernética, também esperamos a necessidade de defesas mais expansivas para modelos futuros, cujas capacidades irão rapidamente exceder até mesmo os melhores modelos construídos especificamente para esse fim.”
A empresa afirma que se concentrou em três pilares para a sua abordagem de segurança cibernética. A primeira envolve os chamados sistemas de validação “conheça o seu cliente” para permitir o acesso controlado a novos modelos tão amplos e “democratizados” quanto possível. “Desenhamos mecanismos que evitam decidir arbitrariamente quem tem acesso para uso legítimo e quem não tem”, escreveu a empresa na terça-feira. A OpenAI está combinando um modelo de parceria com determinadas organizações em lançamentos limitados com um sistema automatizado introduzido em fevereiro, conhecido como Trusted Entry for Cyber ou TAC.
O segundo componente da estratégia envolve a “implantação iterativa”, ou um processo de liberação “cuidadosa” e, em seguida, de refinamento de novos recursos para que a empresa possa obter insights e suggestions do mundo actual. A postagem do weblog destaca particularmente “resiliência a jailbreaks e outros ataques adversários e melhoria das capacidades defensivas”. Finalmente, o terceiro foco está nos investimentos que, segundo a empresa, apoiam a segurança de software program e outras defesas digitais à medida que a IA generativa prolifera.
A OpenAI afirma que a iniciativa se enquadra em seus esforços de segurança mais amplos, incluindo um agente de IA de segurança de aplicativos lançado no mês passado conhecido como Codex Safety, um programa de subsídios de segurança cibernética que começou em 2023, uma doação recente à Linux Basis para apoiar a segurança de código aberto e o “Estrutura de Preparação” que se destina a avaliar e defender contra “danos graves de capacidades de IA de fronteira”.
As afirmações da Anthropic na semana passada de que modelos de IA mais capazes exigem um cálculo de segurança cibernética têm sido controversas entre os especialistas em segurança. Alguns dizem que a preocupação é exagerada e pode alimentar uma nova onda de sentimento anti-hacker – consolidando ainda mais o poder dos gigantes da tecnologia. Outros, porém, sublinham que as vulnerabilidades e deficiências nas actuais defesas de segurança são bem conhecidas e poderiam realmente ser exploradas com nova velocidade e intensidade por uma gama ainda mais ampla de maus actores na period da IA agente.













