Início Tecnologia Cinco sinais de que o desvio de dados já está prejudicando seus...

Cinco sinais de que o desvio de dados já está prejudicando seus modelos de segurança

18
0

O desvio de dados ocorre quando as propriedades estatísticas dos dados de entrada de um modelo de aprendizado de máquina (ML) mudam ao longo do tempo, eventualmente tornando suas previsões menos precisas. Os profissionais de segurança cibernética que dependem de ML para tarefas como detecção de malware e análise de ameaças de rede descobrem que o desvio de dados não detectado pode criar vulnerabilidades. Um modelo treinado em padrões de ataque antigos pode não conseguir enxergar as ameaças sofisticadas de hoje. Reconhecer os primeiros sinais de desvio de dados é o primeiro passo para manter sistemas de segurança confiáveis ​​e eficientes.

Por que o desvio de dados compromete os modelos de segurança

Os modelos de ML são treinados em um instantâneo de dados históricos. Quando os dados em tempo actual não se assemelham mais a esse instantâneo, o desempenho do modelo diminui, criando um risco crítico de segurança cibernética. Um modelo de detecção de ameaças pode gerar mais falsos negativos ao ignorar violações reais ou criar mais falsos positivos, levando à fadiga de alertas das equipes de segurança.

Os adversários exploram ativamente esta fraqueza. Em 2024, os invasores usaram técnicas de falsificação de eco para ignorar os serviços de proteção de e-mail. Ao explorar configurações incorretas no sistema, eles enviaram milhões de e-mails falsificados que escaparam dos classificadores de ML do fornecedor. Este incidente demonstra como os agentes de ameaças podem manipular dados de entrada para explorar pontos cegos. Quando um modelo de segurança não consegue se adaptar às mudanças táticas, torna-se um risco.

5 indicadores de desvio de dados

Os profissionais de segurança podem reconhecer a presença de desvio (ou seu potencial) de diversas maneiras.

1. Uma queda repentina no desempenho do modelo

Exatidão, precisão e recall costumam ser as primeiras vítimas. Um declínio consistente nessas principais métricas é um sinal de alerta de que o modelo não está mais sincronizado com o cenário atual de ameaças.

Considere o sucesso da Klarna: seu assistente de IA administrou 2,3 ​​milhões de conversas de atendimento ao cliente no primeiro mês e realizou um trabalho equivalente a 700 agentes. Essa eficiência impulsionou Declínio de 25% em consultas repetidas e tempos de resolução reduzidos para menos de dois minutos.

Agora think about se esses parâmetros fossem revertidos repentinamente devido ao desvio. Num contexto de segurança, uma queda semelhante no desempenho não significa apenas clientes insatisfeitos – também significa intrusões bem-sucedidas e potencial exfiltração de dados.

2. Mudanças nas distribuições estatísticas

As equipes de segurança devem monitorar as principais propriedades estatísticas dos recursos de entrada, como média, mediana e desvio padrão. Uma mudança significativa nessas métricas dos dados de treinamento pode indicar que os dados subjacentes foram alterados.

O monitoramento dessas mudanças permite que as equipes detectem desvios antes que eles causem uma violação. Por exemplo, um modelo de detecção de phishing pode ser treinado em e-mails com tamanho médio de anexo de 2 MB. Se o tamanho médio do anexo saltar repentinamente para 10 MB devido a um novo método de entrega de malware, o modelo poderá não conseguir classificar esses e-mails corretamente.

3. Mudanças no comportamento de previsão

Mesmo que a precisão world pareça estável, as distribuições das previsões podem mudar, um fenómeno frequentemente referido como desvio de previsão.

Por exemplo, se um modelo de detecção de fraude sinalizou historicamente 1% das transações como suspeitas, mas de repente começou a sinalizar 5% ou 0,1%, algo mudou ou a natureza dos dados de entrada mudou. Pode indicar um novo tipo de ataque que confunde o modelo ou uma mudança no comportamento legítimo do usuário que o modelo não foi treinado para identificar.

4. Um aumento na incerteza do modelo

Para modelos que fornecem uma pontuação de confiança ou probabilidade com suas previsões, uma diminuição geral na confiança pode ser um sinal sutil de desvio.

Estudos recentes destacam a valor da quantificação da incerteza na detecção de ataques adversários. Se o modelo ficar menos seguro sobre suas previsões em geral, é provável que esteja enfrentando dados nos quais não foi treinado. Num cenário de cibersegurança, esta incerteza é um sinal precoce de uma potencial falha do modelo, sugerindo que o modelo está a operar em terreno desconhecido e que as suas decisões podem já não ser fiáveis.

5. Mudanças nos relacionamentos de recursos

A correlação entre diferentes recursos de entrada também pode mudar com o tempo. Em um modelo de intrusão de rede, o quantity de tráfego e o tamanho dos pacotes podem estar altamente vinculados durante as operações normais. Se essa correlação desaparecer, poderá sinalizar uma mudança no comportamento da rede que o modelo pode não compreender. Uma dissociação repentina de recursos pode indicar uma nova tática de tunelamento ou uma tentativa de exfiltração furtiva.

Abordagens para detectar e mitigar o desvio de dados

Os métodos de detecção comuns incluem o Kolmogorov-Smirnov (KS) e o índice de estabilidade populacional (PSI). Estes comparam o distribuições de dados ao vivo e de treinamento para identificar desvios. O teste KS determina se dois conjuntos de dados diferem significativamente, enquanto o PSI mede o quanto a distribuição de uma variável mudou ao longo do tempo.

O método de mitigação escolhido muitas vezes depende de como o desvio se manifesta, uma vez que mudanças na distribuição podem ocorrer repentinamente. Por exemplo, o comportamento de compra dos clientes pode mudar da noite para o dia com o lançamento de um novo produto ou promoção. Em outros casos, a deriva pode ocorrer gradualmente durante um período mais prolongado. Dito isso, as equipes de segurança devem aprender a ajustar a cadência de monitoramento para capturar picos rápidos e queimaduras lentas. A mitigação envolverá a reciclagem do modelo com base em dados mais recentes para recuperar a sua eficácia.

Gerencie proativamente o desvio para obter uma segurança mais forte

A deriva de dados é uma realidade inevitável e as equipes de segurança cibernética podem manter uma postura de segurança forte tratando a detecção como um processo contínuo e automatizado. O monitoramento proativo e o retreinamento de modelos são práticas fundamentais para garantir que os sistemas de ML continuem sendo aliados confiáveis ​​contra ameaças em desenvolvimento.

Zac Amos é o editor de recursos da Rehackear.

Bem-vindo à comunidade VentureBeat!

Nosso programa de visitor posts é onde especialistas técnicos compartilham insights e fornecem análises profundas, neutras e não adquiridas, sobre IA, infraestrutura de dados, segurança cibernética e outras tecnologias de ponta que moldam o futuro das empresas.

Leia mais do nosso programa de visitor publish – e confira nosso diretrizes se você estiver interessado em contribuir com um artigo de sua autoria!

fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui