As empresas que criam e implantam agentes têm um problema: seus engenheiros demoram muito para descobrir que um agente cometeu um erro, e o ciclo continua a se perpetuar, especialmente sem um humano em cada etapa.
LangSmith, a plataforma de monitoramento e avaliação da LangChain, lançou um novo recurso em versão beta pública que poderia tornar esse problema mais gerenciável. Motor LangSmith automatiza toda a cadeia detectando falhas de produção, diagnosticando as causas raízes na base de código ativa, elaborando uma correção e evitando regressões. Isso é feito em uma única passagem automatizada.
O LangSmith Engine oferece aos engenheiros de IA um caminho mais rápido para a triagem, mas ele se lança em um campo lotado: Anthropic, OpenAI e Google estão trazendo a observabilidade e a avaliação para suas próprias plataformas.
LangSmith Engine analisa falhas
LangChain disse em uma postagem no weblog que o ciclo típico de desenvolvimento do agente começa rastreando o agente para entender o que ele está fazendo, seguido pela identificação de lacunas, fazendo alterações nos prompts e ferramentas e criando conjuntos de dados verdadeiros. Os desenvolvedores então realizam experimentos e verificam regressões antes de enviar o agente.
O problema é que os clientes muitas vezes enfrentam problemas quando a revisão do rastreamento não revela padrões defeituosos, a repetição de erros fica difícil de ver e não há um avaliador direcionado para detectar o mesmo problema quando ele se repete na produção.
O LangSmith Engine funciona monitorando rastreamentos de produção para vários tipos de sinais, “erros explícitos, falhas do avaliador on-line, anomalias de rastreamento, suggestions negativo do usuário e comportamentos incomuns, como usuários fazendo perguntas que o agente não foi criado para responder”, de acordo com a postagem do weblog.
O Engine então lerá a base de código ativa, encontrará o culpado e elaborará uma solicitação pull antes de propor um avaliador personalizado para esse padrão de falha específico. O humano entra na etapa de aprovação.
Ele é construído com base na infraestrutura de rastreamento e avaliação existente da LangSmith e também funciona com os resultados do avaliador de uma empresa.
Ao contrário das ferramentas de observabilidade, como Weights & Biases, Arize Phoenix e Honeyhive, o LangSmith Engine leva toda a cadeia automaticamente – detectando a falha, diagnosticando a causa raiz, elaborando uma correção – e traz o humano apenas na etapa de aprovação.
Provedores de modelos trazendo avaliadores para a plataforma
Embora LangSmith tenha identificado esse ciclo de avaliação como uma necessidade para muitas empresas, o Engine chega em um momento em que os grandes fornecedores estão começando a oferecer ferramentas de observabilidade em sua plataforma. Isso significa que as empresas podem optar por usar uma plataforma ponta a ponta em vez de adicionar o LangSmith Engine aos seus fluxos de trabalho existentes.
O Claude Managed Brokers da Anthropic reúne implantação, avaliação e orquestração de agentes em um único conjunto. O Frontier da OpenAI oferece uma plataforma ponta a ponta semelhante para construir, governar e avaliar agentes empresariais – embora ambos tenham enfrentado questões de empresas receosas de se comprometerem com um único fornecedor.
No entanto, os profissionais salientam que nem todos pretendem reunir as avaliações e a observabilidade numa única plataforma.
Leigh Coney, fundador e consultor principal da Workwise Options, disse à VentureBeat que a observabilidade de terceiros é o padrão para muitas empresas.
“Um fundo com o qual trabalho administra Claude para análise e GPT para um fluxo de trabalho separado. Se a observabilidade reside nas ferramentas de cada fornecedor, agora você tem dois sistemas que não podem se comunicar. Sua equipe de conformidade não pode produzir uma trilha de auditoria unificada”, disse ele. “Portanto, a observabilidade de terceiros está sobrevivendo porque o multimodelo já é o padrão nas empresas e alguém precisa se sentar entre os fornecedores.”
Jessica Arredondo Murphy, CEO e cofundadora da True Match, disse que plataformas independentes como LangSmith precisam provar às empresas que podem “responder à questão de longo prazo de se tornarem a camada operacional de modelo cruzado para qualidade e confiabilidade”.
“As empresas não estão se consolidando nas ferramentas do fornecedor de modelos primários tão rapidamente quanto os fornecedores de modelos prefeririam. O que vejo é uma divisão pragmática: as equipes usarão ferramentas primárias para integração rápida e depuração em estágio inicial, mas assim que se preocupam com a confiabilidade da produção, governança e flexibilidade de longo prazo, elas tendem a introduzir uma camada mais neutra para observabilidade e avaliação”, disse ela.
LangSmith Engine já está disponível em versão beta pública. As equipes podem conectar um projeto de rastreamento e, opcionalmente, conectar seu repositório, e o Engine começará a revelar problemas de rastreamentos de produção automaticamente.













