Início Tecnologia Os agentes de IA no dispositivo atingiram um limite rígido de memória....

Os agentes de IA no dispositivo atingiram um limite rígido de memória. A nova arquitetura da Apple gira em torno disso.

30
0

Os modelos de IA no dispositivo permaneceram pequenos porque todo o conjunto de pesos precisa residir na DRAM, limitando a contagem de parâmetros práticos bem abaixo do que as implantações no lado do servidor usam. Os arquitetos corporativos que avaliam cargas de trabalho de agente tiveram que escolher entre modelos capazes e dependentes da nuvem e modelos limitados no dispositivo. Os modelos básicos de terceira geração da Apple, anunciados na WWDC26, quebre essa restrição movendo o peso totalmente para fora da DRAM.

A família AFM 3 foi desenvolvida em colaboração com o Google e abrange cinco modelos: dois no dispositivo e três baseados em servidor, todos rodando dentro dos limites da computação em nuvem privada da Apple. Os modelos do lado do servidor, incluindo AFM 3 Cloud Professional para uso de ferramentas de agente e raciocínio complexo, são executados em GPUs Nvidia no Google Cloud. A arquitetura do dispositivo é da própria Apple. AFM 3 Core Superior é um modelo de 20 bilhões de parâmetros que armazena pesos em flash NAND em vez de DRAM.

“Em vez de forçar o modelo inteiro na DRAM, o modelo completo é armazenado na memória flash”, A equipe de pesquisa da Apple escreveu. “Como a largura de banda NAND para DRAM é muito lenta para trocar pesos token por token, conforme exigido pelos modelos MoE padrão, o AFM 3 Core Superior toma decisões de roteamento por immediate.”

Como a arquitetura realmente funciona

O muro de memória em que a Apple está trabalhando é aquele que todo desenvolvedor native de IA enfrenta. “Você não pode colocar parâmetros de 20B na RAM com precisão razoável”, Awni Hannunpesquisador da Anthropic e ex-cientista pesquisador da Apple, postado em X. “Para fazer funcionar, eles estão usando uma arquitetura bastante exótica para os padrões atuais. Um pequeno modelo prevê, a partir da consulta (ou immediate), quais especialistas carregarão do NAND para a RAM.”

Esse mecanismo de previsão e carga tem três componentes distintos, cada um impulsionado pelas restrições de {hardware} do silício do consumidor.

O conjunto completo de peso 20B reside em flash, não em DRAM. AFM 3 Core Superior armazena todo o seu conjunto de parâmetros em flash NAND em vez de memória ativa. As implantações padrão no dispositivo exigem que o modelo completo caiba na DRAM, que é o que limita a contagem de parâmetros. A abordagem da Apple, que ela chama de Poda Seguidora de Instruções (IFP) e desenvolvida com seus próprios pesquisadores, trata o flash como o lar permanente do modelo e a DRAM como um buffer de trabalho para quaisquer especialistas que um determinado immediate exija.

O roteamento especializado acontece uma vez por immediate, não por token. Em um modelo convencional de Mistura de Especialistas, um roteador seleciona especialistas diferentes para cada token gerado – o que exigiria movimento contínuo de peso entre flash e DRAM em velocidade de inferência. A largura de banda NAND para DRAM não pode suportar isso. O AFM 3 Core Superior roteia uma vez, seleciona um conjunto de especialistas fixo, carrega-o na DRAM junto com especialistas compartilhados sempre ativos e gera todos os tokens dessa mesma configuração. “A principal distinção de um MoE típico é que você faz isso uma vez por consulta e depois gera todos os tokens com os mesmos especialistas”, escreveu Hannun.

Fonte: Apple Machine Studying Analysis, 8 de junho de 2026.

A contagem de parâmetros ativos varia de 1B a 4B dependendo da complexidade da tarefa. Em vez de executar um tamanho de modelo fixo para cada solicitação, o AFM 3 Core Superior ajusta quantos parâmetros ele ativa com base no que a tarefa exige – 1 bilhão para operações mais simples, até 4 bilhões para operações mais difíceis, todos extraídos do pool de 20 bilhões de parâmetros em flash.

O que a Apple divulgou e o que não divulgou

O artigo de arquitetura é detalhado sobre o design da memória e o mecanismo de ativação esparsa. É menos acessível em termos de restrições práticas de implantação.

As ferramentas de criação de perfil da Apple expõem o tempo, mas não as métricas que decidem a viabilidade da produção. “Energia, largura de banda de memória, térmica? Não está nos documentos”, Marco Abis, que está construindo o Ziraph, um criador de perfil para IA native em silício da Apple, postado em X. “Uma lacuna notável, dado que são aqueles que decidem a maior parte do desempenho do dispositivo.”

Abis também não encontrou uma declaração na documentação da Apple – nos documentos Core AI, nos documentos Basis Fashions ou na postagem de segurança Non-public Cloud Compute – de quando uma solicitação no dispositivo é descarregada de forma transparente, ou se esse roteamento é visível para o desenvolvedor ou o usuário. Para empresas que precisam documentar onde a inferência é executada, isso representa um problema direto de conformidade.

Nem todas as informações estão disponíveis atualmente. A Apple indicou que um relatório técnico completo com benchmarks será lançado no remaining deste verão.

O que isso significa para arquitetos corporativos

As indústrias regulamentadas que avaliam implantações de IA de agentes agora têm uma decisão arquitetônica concreta a tomar.

  • A parede DRAM para agentes no dispositivo acabou de ser movida. As empresas que avaliam agentes que precisam funcionar sem uma viagem de ida e volta à nuvem agora têm uma opção native de 20 bilhões de parâmetros para avaliar. A restrição muda da capacidade do modelo para o {hardware} do dispositivo.

  • O limite privado/nuvem agora é uma decisão arquitetônica, não um padrão. Solicitações mais simples permanecem no dispositivo; tarefas de agente complexas são roteadas para o AFM 3 Cloud Professional em computação em nuvem privada. A Apple não especificou publicamente quando uma solicitação é descarregada ou se esse roteamento é visível para o desenvolvedor – uma lacuna que complica as decisões políticas para organizações que precisam documentar onde a inferência é executada.

  • O nível do servidor agente depende do Google Cloud. AFM 3 Cloud Professional é executado em GPUs Nvidia no Google Cloud. A garantia Non-public Cloud Compute cobre a privacidade dos dados. Isso não elimina a dependência do Google Cloud para inferência no servidor.

O AFM 3 Core Superior oferece às empresas uma opção de 20 bilhões de parâmetros no dispositivo que não existia antes da WWDC26. Se será implantável em escala depende de respostas que a Apple ainda não publicou. Esses detalhes serão divulgados no relatório técnico de verão.

fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui