Nos últimos 18 meses, o handbook do CISO para IA generativa tem sido relativamente simples: controlar o navegador.
As equipes de segurança reforçaram as políticas do corretor de segurança de acesso à nuvem (CASB), bloquearam ou monitoraram o tráfego para endpoints de IA bem conhecidos e encaminharam o uso por meio de gateways sancionados. O modelo operacional period claro: se dados confidenciais saírem da rede para uma chamada de API externa, podemos observá-los, registrá-los e interrompê-los. Mas esse modelo está começando a quebrar.
Uma mudança silenciosa de {hardware} está empurrando o uso do modelo de linguagem grande (LLM) para fora da rede e para o endpoint. Chame isso de Shadow AI 2.0 ou period “traga seu próprio modelo” (BYOM): funcionários executando modelos capazes localmente em laptops, off-line, sem chamadas de API e sem assinatura de rede óbvia. A conversa sobre governança ainda é enquadrada como “exfiltração de dados para a nuvem”, mas o risco empresarial mais imediato é cada vez mais “inferência não verificada dentro do dispositivo”.
Quando a inferência acontece localmente, a prevenção tradicional contra perda de dados (DLP) não vê a interação. E quando a segurança não consegue ver, não consegue gerenciar.
Por que a inferência native se tornou subitamente prática
Há dois anos, executar um LLM útil em um laptop computer de trabalho period uma façanha de nicho. Hoje é rotina das equipes técnicas.
Três coisas convergiram:
-
Os aceleradores voltados para o consumidor levaram a sério: Um MacBook Professional com memória unificada de 64 GB geralmente pode executar modelos quantizados da classe 70B em velocidades utilizáveis (com limites práticos no comprimento do contexto). O que antes exigia servidores multi-GPU agora é viável em um laptop computer de última geração para muitos fluxos de trabalho reais.
-
A quantização se tornou common: Agora é fácil compactar modelos em formatos menores e mais rápidos que cabem na memória do laptop computer, muitas vezes com compensações de qualidade aceitáveis para muitas tarefas.
-
A distribuição é sem atrito: Os modelos de peso aberto estão a um único comando de distância, e o ecossistema de ferramentas torna trivial “baixar → executar → conversar”.
O resultado: Um engenheiro pode extrair um artefato de modelo de vários GB, desligar o Wi-Fi e executar fluxos de trabalho confidenciais localmente, revisão de código-fonte, resumo de documentos, elaboração de comunicações com clientes e até mesmo análises exploratórias em conjuntos de dados regulamentados. Sem pacotes de saída, sem registros de proxy, sem trilha de auditoria na nuvem.
Do ponto de vista da segurança da rede, essa atividade pode parecer indistinguível de “nada aconteceu”.
O risco não é mais apenas a saída dos dados da empresa
Se os dados não saem do laptop computer, por que um CISO deveria se importar?
Porque os riscos dominantes passam da exfiltração para a integridade, proveniência e conformidade. Na prática, a inferência native cria três lessons de pontos cegos que a maioria das empresas não operacionalizou.
1. Contaminação de código e decisão (risco de integridade)
Os modelos locais são frequentemente adotados porque são rápidos, privados e “não requerem aprovação”. A desvantagem é que eles frequentemente não são avaliados para o ambiente corporativo.
Um cenário comum: Um desenvolvedor sênior baixa um modelo de codificação ajustado pela comunidade porque ele faz um bom benchmark. Eles colam lógica de autenticação interna, fluxos de pagamento ou scripts de infraestrutura para “limpar tudo”. O modelo retorna uma saída que parece competente, compila e passa em testes de unidade, mas degrada sutilmente a postura de segurança (validação de entrada fraca, padrões inseguros, alterações de simultaneidade frágeis, escolhas de dependência que não são permitidas internamente). O engenheiro confirma a mudança.
Se essa interação aconteceu off-line, talvez você não tenha nenhum registro de que a IA influenciou o caminho do código. E quando você responder mais tarde ao incidente, estará investigando o sintoma (uma vulnerabilidade) sem visibilidade da causa principal (uso descontrolado do modelo).
2. Licenciamento e exposição de IP (risco de conformidade)
Muitos modelos de alto desempenho são fornecidos com licenças que incluem restrições ao uso comercialrequisitos de atribuição, limites de campo de uso ou obrigações que podem ser incompatíveis com o desenvolvimento de produtos proprietários. Quando os funcionários executam modelos localmente, esse uso pode ignorar o processo regular de aquisição e revisão authorized da organização.
Se uma equipe usar um modelo não comercial para gerar código de produção, documentação ou comportamento do produto, a empresa poderá herdar riscos que aparecerão posteriormente durante diligências de fusões e aquisições, análises de segurança do cliente ou litígios. A parte difícil não são apenas os termos da licença, é a falta de inventário e rastreabilidade. Sem um hub de modelo governado ou registro de uso, talvez você não consiga provar o que foi usado e onde.
3. Modelo de exposição da cadeia de abastecimento (risco de proveniência)
A inferência native também altera o problema da cadeia de fornecimento de software program. Os endpoints começam a acumular grandes artefatos de modelo e as cadeias de ferramentas ao seu redor: ownloaders, conversores, tempos de execução, plug-ins, shells de UI e pacotes Python.
Há uma nuance técnica crítica aqui: o formato do arquivo é importante. Embora formatos mais recentes como Tensores de segurança são projetados para evitar a execução arbitrária de códigos, À base de picles Arquivos PyTorch pode executar cargas maliciosas simplesmente quando carregado. Se seus desenvolvedores estão obtendo pontos de verificação não verificados do Hugging Face ou de outros repositórios, eles não estão apenas baixando dados – eles podem estar baixando um exploit.
As equipes de segurança passaram décadas aprendendo a tratar executáveis desconhecidos como hostis. BYOM requer estender essa mentalidade para modelar artefatos e a pilha de tempo de execução circundante. A maior lacuna organizacional hoje é que a maioria das empresas não tem equivalente a um lista de materiais de software para modelos: proveniência, hashes, fontes permitidas, digitalização e gerenciamento do ciclo de vida.
Mitigando BYOM: trate os pesos do modelo como artefatos de software program
Você não pode resolver a inferência native bloqueando URLs. Você precisa de controles com reconhecimento de endpoint e de uma experiência de desenvolvedor que torne o caminho seguro o caminho mais fácil.
Aqui estão três maneiras práticas:
1. Leve a governança até o ponto remaining
O DLP e o CASB da rede ainda são importantes para o uso da nuvem, mas não são suficientes para o BYOM. Comece a tratar o uso do modelo native como um problema de governança de endpoint procurando sinais específicos:
-
Inventário e detecção: Procure indicadores de alta fidelidade, como arquivos .gguf maiores que 2 GB, processos como lhama.cpp ou Ollama, e ouvintes locais em comum porta padrão 11434.
-
Consciência de processo e tempo de execução: Monitore a alta utilização repetida de GPU/NPU (unidade de processamento neural) de tempos de execução não aprovados ou servidores de inferência locais desconhecidos.
-
Política do dispositivo: Usar gerenciamento de dispositivos móveis (MDM) e detecção e resposta de endpoint (EDR) políticas para controlar a instalação de tempos de execução não aprovados e impor proteção de linha de base em dispositivos de engenharia. A questão não é punir a experimentação. É para recuperar a visibilidade.
2. Fornecer uma estrada pavimentada: um hub de modelo interno e com curadoria
Shadow AI costuma ser resultado de atrito. As ferramentas aprovadas são muito restritivas, muito genéricas ou muito lentas para serem aprovadas. Uma abordagem melhor é oferecer um catálogo interno com curadoria que inclua:
-
Modelos aprovados para tarefas comuns (codificação, resumo, classificação)
-
Licenças verificadas e orientação de uso
-
Versões fixadas com hashes (priorizando formatos mais seguros como Safetensors)
-
Documentação clara para uso native seguro, inclusive onde dados confidenciais são ou não permitidos. Se você quiser que os desenvolvedores parem de vasculhar, dê a eles algo melhor.
3. Atualizar a linguagem da política: “serviços em nuvem” não são mais suficientes
As políticas de uso mais aceitáveis falam sobre SaaS e ferramentas em nuvem. BYOM exige uma política que cubra explicitamente:
-
Fazendo obtain e executando artefatos de modelo em terminais corporativos
-
Fontes aceitáveis
-
Requisitos de conformidade de licença
-
Regras para uso de modelos com dados confidenciais
-
Expectativas de retenção e registro para ferramentas de inferência native Isso não precisa ser pesado. Precisa ser inequívoco.
O perímetro está voltando para o dispositivo
Durante uma década, transferimos os controles de segurança para a nuvem. A inferência native está puxando uma fatia significativa da atividade de IA de volta ao ponto remaining.
5 sinais de que a IA sombra foi movida para endpoints:
-
Artefatos de modelo grande: Consumo inexplicável de armazenamento por arquivos .gguf ou .pt.
-
Servidores de inferência locais: Processa a escuta em portas como 11434 (Ollama).
-
Padrões de utilização de GPU: Picos no uso da GPU enquanto estiver off-line ou desconectado da VPN.
-
Falta de inventário de modelos: Incapacidade de mapear saídas de código para versões específicas do modelo.
-
Ambigüidade da licença: Presença de pesos de modelo “não comerciais” em construções de produção.
Shadow AI 2.0 não é um futuro hipotético, é uma consequência previsível de {hardware} rápido, distribuição fácil e demanda dos desenvolvedores. Os CISOs que se concentram apenas nos controles de rede perderão o que está acontecendo no silício colocado nas mesas dos funcionários.
A próxima fase da governança da IA tem menos a ver com o bloqueio de websites e mais com o controle de artefatos, proveniência e políticas no endpoint, sem prejudicar a produtividade.
Jayachander Reddy Kandakatla é engenheiro sênior de MLOps.
Bem-vindo à comunidade VentureBeat!
Nosso programa de visitor posts é onde especialistas técnicos compartilham insights e fornecem análises profundas, neutras e não adquiridas, sobre IA, infraestrutura de dados, segurança cibernética e outras tecnologias de ponta que moldam o futuro das empresas.
Leia mais do nosso programa de visitor put up – e confira nosso diretrizes se você estiver interessado em contribuir com um artigo de sua autoria!











