Um agente de migração de código termina sua execução e o pipeline fica verde. Mas várias peças nunca foram compiladas – e levaram dias para serem coletadas. Isso não é uma falha de modelo; é um agente decidindo que o que foi feito antes de realmente ser feito.
Muitas empresas estão vendo agora que os pipelines de agentes de IA de produção falham não por causa das habilidades dos modelos, mas porque o modelo por trás do agente resolve parar. Vários métodos para evitar saídas prematuras de tarefas estão agora disponíveis na LangChain, Google e OpenAI, embora muitas vezes dependam de sistemas de avaliação separados. O método mais novo vem da Anthropic: /metas no Código Claudeque separa formalmente a execução de tarefas e a avaliação de tarefas.
Os agentes de codificação trabalham em loop: eles leem arquivos, executam comandos, editam código e então verificam se a tarefa foi concluída.
Claude Code /objectives essencialmente adiciona uma segunda camada a esse loop. Depois que um usuário outline uma meta, Claude continuará a analisar, mas um modelo avaliador entra após cada etapa para revisar e decidir se a meta foi alcançada.
Os dois modelos se dividiram
As plataformas de orquestração dos três fornecedores identificaram o mesmo obstáculo. Mas a maneira como eles abordam isso é diferente. OpenAI deixa o loop sozinho e deixa o modelo decidir quando terminar, mas permite que os usuários marquem seus próprios avaliadores. Para o LangGraph e o Agent Improvement Equipment do Google, a avaliação independente é possível, mas exige que os desenvolvedores definam o nó crítico, escrevam a lógica de terminação e configurem a observabilidade.
Claude Code /objectives outline o padrão do avaliador independente, se o usuário deseja que ele seja executado mais ou menos. Basicamente, o desenvolvedor outline a condição de conclusão da meta por meio de um immediate. Por exemplo, /objective todos os testes em check/auth passam e a etapa lint é limpa. O Claude Code é então executado e toda vez que o agente tenta encerrar seu trabalho, o modelo de avaliação, que é o Haiku por padrão, irá verificar o loop de condição. Se a condição não for atendida, o agente continuará em execução. Se a condição for atendida, ele registrará a condição alcançada na transcrição da conversa do agente e limpará a meta. Existem apenas duas decisões que o avaliador toma, e é por isso que o modelo Haiku menor funciona bem, seja feito ou não.
Claude Code torna isso possível separando o modelo que tenta concluir uma tarefa do modelo do avaliador que garante que a tarefa seja realmente concluída. Isso evita que o agente misture o que já foi feito com o que ainda precisa ser feito. Com este método, a Anthropic observou que não há necessidade de uma plataforma de observabilidade de terceiros – embora as empresas sejam livres para continuar usando uma junto com o Claude Code – não há necessidade de um registro personalizado e menos dependência de reconstrução autopsy.
Concorrentes como o Google ADK apoiam padrões de avaliação semelhantes. O Google ADK implanta um LoopAgent, mas os desenvolvedores precisam arquitetar essa lógica.
Em sua documentação, a Anthropic disse que as condições de maior sucesso geralmente têm:
-
Um estado remaining mensurável: um resultado de teste, um código de saída de compilação, uma contagem de arquivos, uma fila vazia
-
Uma verificação declarada: como Claude deveria provar isso, como “npm check exits 0” ou “git standing is clear”.
-
Restrições que importam: qualquer coisa que não deva mudar no caminho, como “nenhum outro arquivo de teste é modificado”
Confiabilidade no circuito
Para empresas que já gerenciam pilhas de ferramentas extensas, o atrativo é um avaliador nativo que não adicione outro sistema para manter.
Isto faz parte de uma tendência mais ampla no espaço de agência, especialmente à medida que a possibilidade de agentes com estado, de longa duração e de autoaprendizagem se torna cada vez mais uma realidade. Modelos de avaliação, sistemas de verificação e outros sistemas de adjudicação independentes estão a começar a aparecer em sistemas de raciocínio e, em alguns casos, em agentes de codificação como Devin ou agente SWE.
Sean Brownell, diretor de soluções da Sprinklr, disse à VentureBeat por e-mail que há interesse nesse tipo de loop, onde a tarefa e o juiz são separados, mas ele sente que não há nada de único na abordagem da Anthropic.
“Sim, o ciclo funciona. Separar o construtor do juiz é um bom design porque, fundamentalmente, você não pode confiar em um modelo para julgar seu próprio dever de casa. O modelo que faz o trabalho é o pior juiz para saber se ele está feito”, disse Brownell. “Dito isto, a Anthropic não é a primeira a chegar ao mercado. A história mais interessante aqui é que dois dos maiores laboratórios de IA do mundo enviaram o mesmo comando com apenas alguns dias de diferença, mas cada um deles chegou a conclusões totalmente diferentes sobre quem pode declarar ‘pronto’.”
Brownell disse que o loop funciona melhor “para trabalhos determinísticos com um estado remaining verificável, como migrações, consertando conjuntos de testes quebrados, limpando um backlog”, mas para tarefas mais sutis ou que precisam de julgamento de design, uma decisão humana é muito mais importante.
Trazer essa divisão avaliador/tarefa para o nível do circuito do agente mostra que empresas como a Anthropic estão empurrando os agentes e a orquestração ainda mais em direção a um sistema mais auditável e observável.












