Siga ZDNET: Adicione-nos como fonte preferencial no Google.
Principais conclusões da ZDNET
- O custo da IA em termos de tokens aumenta ao usar agentes.
- Os agentes são inconsistentes e não podem prever o uso complete de tokens.
- Os utilizadores devem exigir transparência de preços e garantias de desempenho.
Entre todos os desafios da implementação da inteligência synthetic agente, a questão menos compreendida é o custo. Os fornecedores de IA, como OpenAI, Google e Anthropic, têm listas de preços, mas nenhum desses preços listados informa aos usuários qual será a conta closing para realmente resolver um problema.
O resultado, de acordo com um novo estudo sobre custos realizado pela Universidade de Michigan e instituições colaboradoras, poderá ser um choque: custos crescentes e imprevisíveis dos agentes.
O estudo, realizado pelo autor principal Longju Bai, de Michigan, e colaboradores da Universidade de Stanford, All Palms AI, unidade DeepMind do Google, Microsoft e MIT, intitulado “Como os agentes de IA gastam seu dinheiro? Analisando e prevendo o consumo de tokens em tarefas de codificação de agentes”, é, segundo os autores, “o primeiro estudo sistemático sobre o consumo de tokens de agentes de IA”.
O estudo foi postado no servidor de pré-impressão arXiv.
É digno de nota por ter como autor um proeminente economista de Stanford que comentou extensivamente sobre o impacto da IA na produtividade, Erik Brynjolfsson.
A descoberta de nível superior é que os agentes consomem muito mais tokens do que bate-papos passo a passo, simples e baseados em prompts – pense 3.500 vezes o número de tokens para um agente do que para uma rodada de prompts com ChatGPT.
Também: Agentes de IA são rápidos, soltos e fora de controle, segundo estudo do MIT
Um token é a unidade elementary de informação processada por um modelo de IA. Pode ser um pedaço de uma palavra, uma palavra inteira ou apenas um sinal de pontuação, dependendo de como o modelo divide os dados em pedaços.
Você pode esperar que os agentes custem mais em tokens, mas o estudo revela fatos mais alarmantes. Dois modelos diferentes podem ter custos de token totalmente diferentes para a mesma tarefa. E o mesmo modelo pode ter custos diferentes cada vez que funciona no mesmo problema, usando até o dobro do número de tokens em uma ocasião em comparação com outra.
O pior é que nada disso pode ser previsto. Os agentes, descobriram Bai e a equipe, não podem estimar com segurança quantos tokens eles consumirão para uma determinada tarefa.
“As tarefas de agente são excepcionalmente caras”, escreveram eles, embora mais tokens não melhorem necessariamente os resultados. “O simples dimensionamento do uso de tokens pode não levar a um desempenho de execução mais alto”, escreveram eles, e “[AI] os modelos subestimam sistematicamente os tokens de que precisam.
O custo crescente e a incerteza do sucesso não são de forma alguma contabilizados nas listas de preços atuais da OpenAI e outros. O trabalho sugere que não há solução fácil para o problema. O melhor que os usuários podem fazer é definir limites rígidos para o uso do computador pelos agentes, possivelmente fazendo com que os agentes parem antes de concluir as tarefas.
(Divulgação: Ziff Davis, empresa controladora da ZDNET, entrou com uma ação judicial em abril de 2025 contra a OpenAI, alegando que ela violou os direitos autorais de Ziff Davis no treinamento e operação de seus sistemas de IA.)
O quadro geral é que os usuários coletivamente terão que reagir à OpenAI e aos outros fornecedores e exigir alguma forma de estimativa de custos confiável e garantias de desempenho das tarefas.
Entramos em contato com OpenAI, Google e Anthropic para comentar.
Contando custos de token
Para estudar os custos, Bai e sua equipe usaram a estrutura de IA agente de código aberto Mãos Abertasdesenvolvido por acadêmicos da Universidade de Illinois Urbana-Champaign e instituições colaboradoras. Eles usaram o OpenHands para criar agentes, que depois testaram no teste de benchmark de codificação de código aberto Banco SWE. As tarefas do SWE-Bench são retiradas de problemas reais do GitHub.
Também: Agentes de IA do caos? Nova pesquisa mostra como bots conversando com bots podem ir para o lado rapidamente
Eles primeiro encontraram os pontos fortes relativos dos modelos. O ChatGPT 5 e 5.2 da OpenAI “alcançam grande precisão com baixo custo”, embora não sejam os mais precisos. Claude Sonnet-4.5 da Anthropic alcançou a maior precisão, mas com custos de token mais elevados. O Gemini-3-Professional do Google estava em algum lugar no meio. E o modelo Kimi-K2 do laboratório chinês de IA Moonshot pode ter a pior combinação relativa: o maior número de tokens para alcançar a menor precisão.
Os autores sugeriram que a diferença nos tokens é baseada em propriedades únicas de como os modelos são arquitetados: “A lacuna não é causada pela dificuldade da tarefa ou por alguns modelos que tentam problemas mais difíceis. Em vez disso, a mesma tarefa é simplesmente mais cara para alguns modelos do que para outros, refletindo uma tendência comportamental do modelo em vez de uma propriedade do problema.”
Mas a questão não é entre modelos melhores ou piores, porque mesmo o mesmo modelo pode levar o dobro de tokens para resolver o mesmo problema de uma “execução” da tarefa para a próxima.
“As execuções mais caras dobram o custo simbólico e monetário das execuções menos dispendiosas”, observaram eles, “sugerindo que o consumo de tokens do agente tem grandes variações, mesmo quando se trabalha exatamente no mesmo problema”.
A lição é que mais tokens não trazem necessariamente melhores resultados. “O simples dimensionamento do uso de tokens pode não levar a um melhor desempenho de execução”, escreveram eles.
Na verdade, os autores descobriram que geralmente o trabalho pode piorar quanto mais tempo um agente gasta em uma tarefa. “A precisão muitas vezes atinge o pico nos custos intermediários e satura nos custos mais elevados”, observaram. “O comportamento dos agentes torna-se cada vez mais instável em tarefas mais complexas.”
Muitos modelos parecem procurar e procurar resolver um problema mesmo quando este é infrutífero. “Os modelos carecem de um mecanismo confiável para reconhecer quando uma tarefa é insolúvel e parar precocemente”, escreveram Bai e equipe. “Em vez disso, eles continuam explorando, tentando e relendo o contexto, acumulando custos sem progresso”.
Incapaz de prever custos
Esses fatores tornam “a previsão do uso de tokens e o preço do agente uma tarefa fundamentalmente desafiadora”, escreveram Bai e sua equipe. E, de fato, o próprio bot não pode prever quando solicitado a fazer uma “introspecção”, descobriram eles.
Bai e sua equipe pediram a cada agente de IA que previsse seus tokens usando o immediate: “Carreguei um repositório de código python no repositório de exemplo de diretório. Você é um agente TOKEN ESTIMATION. Estime o custo do token para corrigir a seguinte descrição do problema” e, em seguida, a descrição do problema, como corrigir um bug para uma função de comparação no código que falha.
O que eles descobriram é que os agentes podem aproximar, até certo ponto, quantos tokens serão usados, mas suas previsões tendem a ser muito baixas.
“Os modelos subestimam consistentemente os tokens de que precisam”, escreveram Bai e sua equipe. “A tendência é especialmente pronunciada para tokens de entrada, cujas previsões permanecem comprimidas mesmo quando os valores reais crescem para milhões.”
Observe essas entradas
Esse último ponto, sobre tokens de entrada, tem destaque especial no relatório. Bai e sua equipe descobriram que os tokens de entrada, como o que é digitado pelo usuário humano e o que é recuperado por meio de ferramentas como pesquisas em banco de dados, dominam o custo em tokens. Os outros dois tipos de tokens, a saída, que é gerada, e os tokens armazenados em cache mantidos na memória dos estágios anteriores, são muito menos exigentes.
“Surpreendentemente, os tokens de entrada, e não os tokens de saída, dominam o custo geral da codificação de agente.”
A razão é que “os fluxos de trabalho agênticos acumulam informações de diferentes fontes e o mesmo contexto é alimentado repetidamente nos modelos”. Como resultado, há uma “proporção de entrada/saída dramaticamente maior” para IA de agente do que para sessões de IA de immediate único ou de immediate múltiplo com um bot.
E, detalhando ainda mais, o fator de token de entrada mais caro é quando o agente recupera informações anteriores da memória. “Achamos que leituras de cache dominam tanto o quantity bruto de tokens quanto o custo em dólares“, escreveram Bai e sua equipe. “Em todas as fases, os tokens de entrada de leitura de cache são a maior categoria por uma ampla margem (Figura 8a), refletindo a reutilização cumulativa do contexto anterior.”
Haverá um acerto de contas
No geral, os resultados do estudo confirmam minha experiência anedótica com agentes de codificação como Replit e Lovable, onde o medidor funcionava constantemente para usar os modelos de IA subjacentes e eu não tinha noção de qual seria o custo complete.
O que pode ser feito? Os autores não têm muitas sugestões. Uma proposta é que, mesmo que os agentes não consigam prever o número de tokens, eles possam fazer algumas suposições em alto nível, uma estimativa “grossa” do custo do token. “Isso sugere que a estimativa orientada pelo agente pode potencialmente apoiar alertas de orçamento antes de lançar execuções caras, melhorando a transparência dos custos sem prometer demais a precisão precisa no nível do token”, escreveram eles.
Posso pensar em algumas outras diretrizes sensatas.
Como os tokens de entrada são o elemento de maior custo, deve-se pensar cuidadosamente sobre o que pode ser controlado na entrada. O tamanho dos prompts é um fator que aumenta os tokens de entrada. A janela de contexto usada com um agente, mais larga ou mais estreita, afeta a contagem de tokens na entrada. E o número de ferramentas chamadas pelo agente, como bancos de dados, trará muito mais tokens de entrada em ação.
Também: Um novato pode realmente codificar um aplicativo? Eu tentei Cursor e Replit para descobrir
No entanto, há um limite para o que você pode fazer como usuário. Algo mais terá que ser feito em toda a indústria. Os problemas descritos são claramente os de uma indústria jovem e onde os fornecedores terão de ser pressionados pelos utilizadores para mudarem as práticas.
A falta de transparência quanto ao custo que um agente pode custar para realizar uma tarefa é demasiado vaga para as empresas que necessitam de ser capazes de planear investimentos em software program. A responsabilidade recai sobre o usuário para executar tarefas de agente em uma capacidade experimental repetidamente, a fim de obter algo como um custo médio para usar como estimativa para fins de planejamento.
E a falta de garantias de sucesso – mesmo depois de o agente queimar tokens – é o problema mais flagrante. Isso significa que as empresas podem desperdiçar grandes quantias de dinheiro apenas administrando tokens.
Os usuários coletivamente terão que reagir a fornecedores como OpenAI, Google e Anthropic e exigir transparência de preços e alguma forma de garantia de que uma tarefa será concluída, caso contrário, todo o exercício da IA de agência poderá ser dominado por custos excessivos e implementações fracassadas.
Problemas tão profundos provavelmente já estão sendo encontrados pelos primeiros adotantes. Eles podem se contentar em pagar um custo tão alto para estar entre os primeiros a obter uma vantagem de agência. No entanto, não é uma situação que possa levar ao uso estável e constante da IA agente.










