Início Tecnologia Tokens mais baratos, contas maiores: a nova matemática da infraestrutura de IA

Tokens mais baratos, contas maiores: a nova matemática da infraestrutura de IA

11
0

Apresentado por Nutanix


À medida que as empresas passam da experimentação de IA para a implantação de produção, o principal fator de custo passou do treinamento do modelo básico para a infraestrutura necessária para executar milhares de cargas de trabalho de inferência simultâneas em escala, com a IA de agente como acelerador.

Enquanto os primeiros projetos empresariais de IA envolviam um punhado de grandes trabalhos de treinamento programados, os ambientes de agente de produção exigem suporte contínuo para solicitações imprevisíveis e de curta duração que consomem recursos de GPU, rede e armazenamento de uma forma que a infraestrutura tradicional nunca foi projetada para lidar. Para os líderes tecnológicos empresariais, essa mudança está a transformar a eficiência da infraestrutura num fator decisivo na economia da IA.

“Cada funcionário com um assistente de IA, cada fluxo de trabalho automatizado, cada pipeline de agente precisa de modelos para inferência e gera muitos tokens”, diz Anindo Sengupta, vice-presidente de produtos da Nutanix. “Essas solicitações de inferência chegam a uma infraestrutura de GPU, atravessam redes especializadas e extraem dados de sistemas de armazenamento criados especificamente para suportar essas cargas de trabalho de IA.”

Por que o custo por token está se tornando uma métrica central de infraestrutura

Os custos de inferência por token têm caiu em aproximadamente uma ordem de grandeza nos últimos dois anos, impulsionado por melhorias na eficiência do modelo e pela pressão competitiva entre os provedores de nuvem. A expectativa seria que a IA empresarial estivesse ficando mais barata. Em vez de, os custos totais estão aumentandodiz Sengupta, apontando para o que os economistas chamam de paradoxo de Jevons: quando um recurso se torna mais barato de usar, o consumo tende a aumentar mais rapidamente do que a queda do preço.

Portanto, embora o custo por token tenha caído quase uma ordem de 10 nos últimos dois anos, o consumo aumentou mais de 100 vezes. O resultado é que o custo por token e a utilização da GPU estão se tornando métricas operacionais primárias para a TI corporativa, juntamente com medidas tradicionais como tempo de atividade e rendimento.

“O custo por token tem a ver, na verdade, com o custo complete de propriedade para servir modelos de inferência”, diz Sengupta. “A utilização significa garantir que, uma vez que você tenha ativos de GPU, você obtenha o máximo retorno deles. Essas métricas serão críticas para os líderes de TI corporativos”.

O que torna isso difícil é o número de variáveis ​​envolvidas. Os custos de token mudam dependendo de quais modelos uma organização executa, onde as cargas de trabalho são executadas e como os prompts são estruturados.

“Existem muitas variáveis ​​de custo para serem gerenciadas intuitivamente”, acrescenta Sengupta. “Otimizá-lo é um problema de engenharia e requer ajuste contínuo.”

Cargas de trabalho agênticas expõem os limites da infraestrutura tradicional

A IA agente de produção introduz um perfil de carga de trabalho que a infraestrutura empresarial tradicional não foi projetada para suportar. As implantações clássicas de information heart são construídas em torno de cargas previsíveis e longos ciclos de planejamento. Os ambientes agênicos produzem explosões imprevisíveis e de alta frequência de solicitações curtas de inferência, impõem novas demandas à rede e ao armazenamento e mudam mais rápido do que a maioria dos ciclos de aquisição permite.

A infraestrutura que suporta a IA de agência também é estruturalmente diferente da computação baseada em CPU. Topologia de GPU, interconexões de alta velocidade, sistemas de armazenamento paralelo para memória de agente e cache KV e arquiteturas de rede capazes de lidar com descarregamento de DPU representam novos recursos que exigem novas habilidades operacionais.

A infraestrutura isolada agrava esses desafios. Quando os recursos da GPU, a rede e o acesso aos dados são gerenciados de forma independente, as ineficiências de agendamento se acumulam, a utilização cai e os custos aumentam. As organizações que executam pilhas fragmentadas tendem a subutilizar ativos caros de GPU e, ao mesmo tempo, afunilar o armazenamento e a taxa de transferência da rede.

Pilhas integradas e o caso da arquitetura full-stack

A resposta emergente entre os fornecedores de infraestrutura é uma mudança em direção a plataformas full-stack validadas e totalmente integradas, projetadas especificamente para cargas de trabalho de IA de produção. A premissa é que a otimização ponta a ponta nas camadas de computação, rede, armazenamento e software program produz melhor utilização e custos mais baixos por token do que a montagem dos melhores componentes de fornecedores separados.

Solução Agentic AI da Nutanixrepresenta uma abordagem para este problema. Construída no hipervisor Nutanix AHV, Nutanix Enterprise AI e Nutanix Kubernetes Platform, a solução foi projetada para gerenciar tanto a camada de computação tradicional, onde a orquestração do agente é executada, quanto a camada de computação acelerada, onde a inferência é executada. A empresa introduziu melhorias com reconhecimento de topologia da NVIDIA no AHV que otimizam automaticamente como GPUs, CPUs, memória e DPUs são alocadas para máquinas virtuais, e transferiu a rede digital Nutanix Circulation para DPUs BlueField, para liberar ciclos de GPU e sustentar o rendimento sem comprometer a segurança.

A solução oferece suporte à implantação instantânea de microsserviços NVIDIA NIM e modelos de código aberto, incluindo Nemotron, e integra um gateway de IA que controla o acesso a LLMs de nuvem de fronteira da Anthropic, Google, OpenAI e outros. O gateway também implementa protocolo de contexto de modelo (MCP) para permitir que os agentes se conectem aos dados corporativos com controles de acesso granulares. A solução é executada na infraestrutura Cisco, permitindo que as organizações implementem a infraestrutura que já operam.

“Ao integrar tudo, desde o hipervisor AHV e Circulation Digital Networking até a plataforma Kubernetes, você take away os silos que retardam os projetos de IA”, explica Sengupta.

As equipes de plataforma e a agilidade do desenvolvedor não podem ser negociadas entre si

Uma tensão organizacional que aumenta com a adoção da IA ​​por agentes é o relacionamento entre as equipes de plataforma que gerenciam a infraestrutura compartilhada e os desenvolvedores que criam e executam aplicativos de agentes sobre ela. Historicamente, esses grupos operaram com ferramentas diferentes, prioridades diferentes e horizontes temporais diferentes, mas Sengupta argumenta que a dinâmica central não mudou, mesmo que a tecnologia tenha mudado.

“As equipes de plataforma continuarão a fornecer um catálogo de recursos de IA de autoatendimento que também são compatíveis com as necessidades de negócios, que podem servir aos construtores de IA de agentes”, diz Sengupta. “As equipes maduras de IA farão um excelente trabalho não apenas na utilização da GPU, mas na criação de um modelo operacional que permita a entrega rápida de infraestrutura de IA para atender ao ritmo de inovação que os desenvolvedores desejam.

As organizações que gerenciam a utilização da GPU de forma mais eficaz tendem a estar mais adiantadas em sua jornada de adoção de IA, com modelos operacionais mais estabelecidos e responsabilização de custos mais clara. Para as organizações que estão no início dessa jornada, as decisões de design de infraestrutura e modelo operacional que estão sendo tomadas agora determinarão se os projetos de IA podem passar do piloto para a produção sem que o custo ou a complexidade se tornem o fator limitante.

O modelo operacional da fábrica de IA

A estrutura emergente para a infraestrutura de IA empresarial é a fábrica de IA, um ambiente criado especificamente para produzir e executar cargas de trabalho de IA em escala. O desafio é que a maioria das organizações precisará operar simultaneamente a computação tradicional e a computação acelerada durante anos, exigindo um modelo operacional comum que abranja ambos os paradigmas tecnológicos sem sacrificar a agilidade.

Com a Nutanix, executada na Cisco como parte dos Cisco AI Pods, alimentada pela Intel e otimizada para a arquitetura de referência NVIDIA, as organizações obtêm uma base full-stack pronta para produção, permitindo que as fábricas de IA sejam compartilhadas de forma segura e eficiente por milhares de agentes, para atingir os custos mais baixos por token. A solução preenche a lacuna entre as equipes de infraestrutura e engenharia de plataforma que gerenciam o {hardware} e as equipes de engenharia de IA e desenvolvedores de IA de agente que criam e executam aplicativos de IA de agente, tornando realmente acessível a execução de IA em grande escala.

“As métricas que determinarão se uma organização pode sustentar e dimensionar seu investimento em IA – custo por token, utilização de GPU, eficiência de agendamento – são métricas de infraestrutura”, diz Sengupta. “Gerenciá-los bem é cada vez mais uma pré-condição para tornar a IA viável, e não apenas funcional”.

Proteja e dimensione sua fábrica de IA — explore a abordagem full-stack aqui.


Artigos patrocinados são conteúdos produzidos por uma empresa que paga pela postagem ou tem relacionamento comercial com a VentureBeat, e estão sempre claramente marcados. Para mais informações, entre em contato vendas@venturebeat.com.

fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui