Nos laboratórios de fronteira, os maiores números de injeção imediata publicados nesta primavera são os da Anthropic. Aponte um time vermelho para seu mais novo modelo em um navegador, e o invasor o sequestrou 31,5% do tempo antes das salvaguardas serem acionadas. OpenAI, Google e Meta nunca deram aos líderes de segurança um número comparável para definir ao lado dele. Esse número parece um passivo. Nesta comparação, é o oposto. É o único pedaço sólido de terreno.
Quatro laboratórios de fronteira enviaram, cada um, uma divulgação imediata da injeção, e nenhum deles corresponde. Colocação antrópica 244 páginas e quatro superfícies de agente na mesa em 28 de maio. OpenAI relatou uma superfície, conectores. O Google mudou o assunto do cartão de modelo para um estrutura de segurança separada. Meta enviado sem cartão de modelo fechado de forma alguma. A grade de divulgação de injeção imediata entre fornecedores abaixo mapeia o que cada laboratório testou, o que cada um mediu e os quatro locais em que uma comparação lado a lado desmorona.
Uma injeção imediata oculta uma instrução maliciosa em algo que um agente lê, uma página da internet, um documento ou resultado de uma ferramenta. Uma linha plantada pode exfiltrar registros ou desencadear ações que ninguém aprovou, e esses cartões são a única evidência primária do comprador.
Não existe um padrão industrial para medir nada disso, e essa é a raiz do problema. Carter Rees, vice-presidente de IA da Reputaçãodisse ao VentureBeat que a injeção imediata quebra a suposição de que todas as ferramentas legadas foram construídas. “Uma frase tão inócua como ‘ignorar instruções anteriores’ pode carregar uma carga tão devastadora quanto um buffer overflow, mas não compartilha nada em comum com assinaturas de malware conhecidas.” Sem nenhuma assinatura compartilhada para procurar, cada laboratório construiu seu próprio critério e os resultados não se alinham.
Adam Meyers, vice-presidente sênior de operações contra adversários da CrowdStrikedisse que a exposição agora cabe ao comprador administrar. “À medida que você implementa a IA, sua superfície de ataque aumenta, então agora você precisa ser capaz de proteger esses modelos de IA contra o uso indevido do adversário, envenenamento de dados ou injeção imediata.” Os próprios dados da linha de frente da CrowdStrike mostram que o lado da ameaça não está parado. Em seu Relatório sobre o cenário de ameaças aos serviços financeiros de 2026lançado em maio, a empresa relatou que adversários usam IA para compactar o tempo desde o acesso inicial até o impacto mais rápido do que as defesas legadas podem responder.
Antrópico mediu quatro superfícies. Os números variam em uma ordem de magnitude dependendo de qual você lê.
O cartão Opus 4.8 faz o que os outros não fazem: ele quebra a injeção imediata pela superfície e a propagação é a história.
Coloque o modelo em um ambiente de codificação e um invasor adaptativo da ferramenta Shade do Grey Swan conseguirá passar. 7,03% de tentativas únicas com o pensamento. As salvaguardas puxaram isso para 2,09%.
Mova a mesma classe de ataque para um navegador, a superfície atrás Claude em cromo e Claude Coworke o chão cede. Anthropic colocou jogadores vermelhos profissionais 129 ambientes web realizados em treinamento e imprimiu todos os resultados em Tabela 5.2.2.4.A na página 81 da placa do sistema. Por tentativa é a parcela de todas as tentativas de injeção que passaram por 129 ambientes com 10 tentativas cada. Por cenário é o corte mais difícil, a parcela de ambientes onde pelo menos uma tentativa foi realizada.
Leia a coluna por tentativa sem salvaguardas, pensando bem, e a taxa bruta cai a cada geração, do Sonnet 4.6 com 50,7% ao Opus 4.8 com 31,5%. O menor valor da tabela, 5,9%, pertence ao Mythos Preview, que ninguém pode comprar ainda. Ative as salvaguardas e o Opus 4.8 cai para 0,5%. Desligue o pensamento e ele cairá para zero em todos os 129 ambientes.
A OpenAI mediu uma superfície, com ataques que já conhecia.
O Cartão GPT-5.5publicado em 23 de abril e atualizado em 24 de abril, trata da injeção imediata em um só lugar, uma única seção sobre robustez para ataques conhecidos contra conectores. A OpenAI relata isso como uma pontuação de robustez onde quanto maior, melhor, o inverso de uma taxa de sucesso de ataque. GPT-5.5 chegou em 0,963abaixo de 0,998 para pensamento GPT-5.4. Esse número é toda a divulgação.
A Anthropic testou quatro superfícies contra um invasor adaptativo que reescreveu sua abordagem com base no que o modelo faz e, em seguida, executou uma recompensa por bug de uma semana em que os red-teamers tentaram quebrar o modelo ao vivo. Quando os resultados da codificação foram piores que o Opus 4.7, o cartão disse isso.
Coloque 0,963 ao lado de 31,5% e eles parecem pertencer a um placar. Eles não. Uma delas é uma pontuação de robustez contra ataques conhecidos em uma superfície. A outra é uma taxa de sucesso de ataque por tentativa em 129 ambientes de navegador contra um invasor que se adaptou em tempo actual.
Google e Meta nunca colocam o número no cartão
do Google Gêmeos 3 os arquivos solicitam injeção sob mitigações, e os materiais de lançamento descrevem uma resistência mais forte sem nenhum número anexado. O Relatório do Quadro de Segurança Fronteiriça executa purple teaming, mas em seus domínios de capacidade, e a injeção imediata não é um deles. Nenhum cartão de modelo, nenhuma página de estrutura, nenhum número por superfície que um comprador possa levar para uma análise de risco.
A Meta envia pesos abertos sem cartão de modelo fechado. A defesa de injeção imediata fica em uma pilha separada, Purple Llama’s LhamaFirewall. UM PromptGuard2 classificador e um auditor AlignmentCheck, executados contra o público AgenteDojo benchmark e suas 97 tarefas, cortam o sucesso do ataque 17,6% sem nenhuma defesa para 1,75% combinado. Números reais. Eles classificam as proteções com base em uma referência pública, e não no modelo em uma superfície de implantação que uma equipe de segurança reconheceria.
A grade de divulgação de injeção imediata para vários fornecedores
A grade abaixo funciona em qualquer modelo de fronteira que as equipes de segurança estejam avaliando. Cada linha marca um native onde os quatro laboratórios são divididos. Cada divisão é onde uma comparação rápida é interrompida. As figuras antrópicas vêm da placa do sistema Opus 4.8. Tudo para os outros três vem da documentação de segurança publicada por cada fornecedor.
|
Dimensão |
Antrópico, Opus 4.8 |
OpenAI, GPT-5.5 |
Google, Gêmeos 3.x |
Meta, pilha de lhama |
|
Documento de segurança |
Cartão do sistema, 28 de maio de 2026, 244 páginas |
Cartão do sistema, 23 de abril de 2026, atualizado em 24 de abril |
Cartão modelo mais um relatório separado do Frontier Security Framework |
Nenhum cartão de modelo fechado. Pesos abertos mais a pilha Purple Llama |
|
Benchmark de injeção ou conjunto de dados |
ARTE da Grey Swan e UK AISI, a ferramenta Shade, além de uma avaliação interna do navegador, 129 ambientes |
Avaliação de conectores internos, ataques conhecidos |
Nenhum para injeção |
AgentDojo, 97 tarefas |
|
Superfícies com avaliação de injeção |
Quatro. Uso de ferramentas, codificação, uso do computador, navegador |
Um. Conectores |
Nenhum publicado para injeção |
Um. Tarefas do agente AgentDojo |
|
Escalonamento de múltiplas tentativas mostrado |
Sim. Referência ART em 1, 10, 100. Codificação e uso de computador em 1 e 200 |
Não. Uma única pontuação |
Não |
Não |
|
Métrica e unidade do título |
Taxa de sucesso de ataque. Navegador, com pensamento, 31,5% bruto, 0,5% protegido |
Pontuação de robustez, quanto maior, melhor. 0,963, abaixo dos 0,998 para pensamento GPT-5.4 |
Nenhum publicado. Maior resistência reivindicada qualitativamente |
Taxa de sucesso de ataque no AgentDojo. 17,6% da linha de base para 1,75% combinado |
|
Recompensa externa ao vivo |
Sim. Recompensa de injeção ao vivo de uma semana com red-teamers externos |
Nenhuma recompensa por injeção. Somente recompensa biológica |
Nenhum encontrado |
Nenhum encontrado |
|
Regressão divulgada |
Sim, explícito, com números |
Número caiu de 0,998 para 0,963, não enquadrado como regressão |
Maior resistência reivindicada, sem números |
Não aplicável |
Cinco fatores que as equipes de segurança precisam considerar agora
A Anthropic testou quatro superfícies e imprimiu todos os números. OpenAI testou um. O Google não imprimiu nenhuma taxa por superfície. A Meta avaliou suas grades de proteção, não o modelo. As quatro divulgações não constituem uma comparação. Essas cinco etapas constroem um.
Extraia cada agente que você implantou ou tenha escopo e marque cada um pela superfície que ele toca, navegador, código, conectores ou área de trabalho. A taxa da Antrópica para Opus 4.8 executa 2,09% na codificação e 0,5% no navegador. Um número combinado não cobre nenhum dos dois. Extraia a taxa publicada do fornecedor para sua superfície específica. Se o fornecedor nunca publicou um, trate-o como não testado.
Envie a grade de vários fornecedores para todos os fornecedores em avaliação. UM Pontuação de conectores de 0,963 e uma taxa de navegação de 31,5% nunca estiveram na mesma escala. Exija uma taxa de sucesso de ataque por superfície, bruta e protegida, com a metodologia do invasor nomeada. As células em branco são as superfícies sem evidências originais.
Confirme por escrito qual o número que a sua integração recebe. Os 0,5% da Anthropic vêm de Claude no Chrome e Cowork com a pilha completa de salvaguardas. Na API, o modelo é enviado sem eles. Não aceite um número de produto para uma implantação de API.
Adicione duas cláusulas à RFP. O fornecedor testou com um invasor adaptativo que reescreve cargas úteis no modelo, e alguém de fora da empresa tentou quebrá-lo. A Anthropic executou a ferramenta Shade adaptativa do Grey Swan e uma recompensa paga de uma semana. A OpenAI testou ataques conhecidos em uma superfície. Os adversários não enviam cargas conhecidas.
Execute seu próprio teste de injeção antes de qualquer agente enviar. Os números dos fornecedores vêm de ambientes de fornecedores com prompts do sistema do fornecedor. Sua pilha tem seus próprios prompts, permissões e acesso a dados. Defina um limite de aprovação. Qualquer coisa acima disso não entra no ar.
O resultado remaining. Ainda não existe um padrão para isso. O número de um fornecedor informa o que ele escolheu medir. Sua própria equipe vermelha informa a que você está exposto.













