Início Tecnologia Seus agentes de IA precisam de um terminal, não apenas de um...

Seus agentes de IA precisam de um terminal, não apenas de um banco de dados vetorial

18
0

Quando os fluxos de trabalho de agente falham, os desenvolvedores geralmente presumem que o problema está nas habilidades de raciocínio do modelo subjacente. Na realidade, as informações limitadas fornecidas pela interface de recuperação costumam ser o principal fator limitante.

Pesquisadores de várias universidades propõem uma técnica chamada interação direta do corpus (DCI) que permite que os agentes ignorem totalmente a incorporação de modelos, pesquisando corpora brutos diretamente usando ferramentas de linha de comando padrão.

Os limites da recuperação clássica

Em sistemas de recuperação clássicos como o RAG, os documentos são fragmentados, convertidos em representações vetoriais (ou embeddings) e indexados offline em um banco de dados vetorial. Quando um sistema de IA processa uma consulta, um recuperador filtra todo o banco de dados para retornar uma lista classificada como “top-k” de trechos de documentos que correspondem à consulta. Todas as evidências devem passar por esse mecanismo de pontuação antes que ocorra qualquer raciocínio posterior.

Mas as aplicações modernas de agentes exigem muito mais. “A recuperação densa é muito útil para uma ampla recordação semântica, mas quando um agente tem que resolver uma tarefa de várias etapas, muitas vezes precisa procurar strings exatas, números, versões, códigos de erro, caminhos de arquivo ou combinações esparsas de pistas”, disseram os autores do artigo da DCI em comentários fornecidos ao VentureBeat. “Esses detalhes de cauda longa são precisamente onde a similaridade semântica pode ser frágil.”

Ao contrário da pesquisa estática, os agentes também devem rever os seus planos de pesquisa de forma dinâmica após observarem evidências parciais ou localizadas. Restrições lexicais exatas e refinamento de hipóteses em várias etapas são difíceis de executar com recuperadores semânticos. Como o recuperador comprime o acesso em uma única etapa, qualquer evidência crítica filtrada pela busca por similaridade não pode ser recuperada posteriormente, não importa quão avançadas sejam as capacidades de raciocínio downstream do agente. Como explicam os autores, os pipelines de recuperação atuais podem se tornar um gargalo porque “eles decidem muito cedo o que o agente pode ver”.

Interação direta do corpus

Esse acesso direto aborda um problema central em ambientes corporativos: a desatualização dos dados. A incorporação de índices é sempre um instantâneo de um momento específico, exigindo computação e tempo consideráveis ​​para construir e manter.

“Em muitos ambientes empresariais, os dados não são uma coleção estável de documentos. São relatórios financeiros diários, logs ao vivo, tickets, commits de código, arquivos de configuração, cronogramas de incidentes e documentos internos que estão sempre mudando”, disseram os autores. O DCI permite que o agente raciocine sobre o estado atual do espaço de trabalho, em vez do índice vetorial de ontem.

Interação direta de corpus (DCI) versus recuperação clássica (fonte: arXiv)

O agente opera em um ambiente semelhante a um terminal, onde suas observações são saídas brutas de ferramentas, como caminhos de arquivos, extensões de texto correspondentes e linhas adjacentes. As ferramentas básicas fornecidas pela DCI são poucas, mas altamente expressivas. Os agentes usam comandos como “discover” e “glob” para navegar nas estruturas de diretórios e localizar arquivos. Para correspondência exata, eles usam “grep” e “rg” para localizar palavras-chave específicas, padrões regex e strings exatas. Quando a inspeção native é necessária, ferramentas como “head”, “tail”, “sed”, “cat” e scripts Python leves permitem que o agente espie o contexto em torno de uma correspondência ou leia seções específicas do arquivo.

O agente pode combinar essas ferramentas por meio de pipelines de shell para executar lógica de pesquisa complexa em uma única etapa. Um agente pode canalizar comandos para impor restrições lexicais estritas, como pesquisar um termo em um arquivo e canalizar a saída para pesquisar um segundo termo. Ele pode combinar várias pistas fracas em um corpus, encontrando um tipo de arquivo específico, pesquisando uma palavra-chave como “relatório” e filtrando por um ano como “2024”. Ele também pode verificar imediatamente uma hipótese inspecionando as linhas exatas em torno de uma correspondência de palavra-chave.

O DCI delega a interpretação semântica diretamente ao agente, em vez de depender da busca por similaridade baseada em incorporação. O agente pode formular hipóteses, testar padrões lexicais exatos e extrair informações detalhadas que um recuperador semântico tradicional pode perder.

Os pesquisadores propõem duas versões deste sistema. DCI-Agent-Lite foi projetado como uma configuração leve e de baixo custo construída no modelo nano GPT-5.4 e restrita exclusivamente a interações brutas de terminal, como comandos bash e leituras básicas de arquivos. Como a leitura de arquivos brutos pode ocupar rapidamente a memória de um modelo menor, esta versão depende de estratégias leves de gerenciamento de contexto em tempo de execução para sustentar a exploração de longo horizonte.

DCI-Agent-CC é a versão de maior desempenho, projetada para equipes com maior orçamento computacional. Ele roda em Claude Code desenvolvido por Claude Sonnet 4.6. O Claude Code fornece prompts mais fortes, orquestração de ferramentas mais robusta e manipulação de contexto integrada superior, o que melhora a estabilidade do agente durante pesquisas complexas e de várias etapas em conjuntos de dados heterogêneos.

DCI em ação

Os pesquisadores testaram ambas as versões do DCI em benchmarks de pesquisa de agentes, como BrowseComp-Plus, controle de qualidade com uso intensivo de conhecimento com raciocínio de salto único e multi-hop e classificação de recuperação de informações em tarefas que exigem raciocínio específico de domínio e verificação científica de fatos.

Eles testaram o DCI em relação a três linhas de base. O primeiro incluía agentes de recuperação de peso aberto, como Search-R1, e agentes proprietários alimentados por modelos de fronteira, como GPT-5 e Claude Sonnet 4.6, emparelhados com recuperadores padrão. A segunda linha de base incluía recuperadores esparsos clássicos como BM25 e recuperadores densos como text-embedding-3-large e Qwen3-Embedding-8B da OpenAI. A terceira linha de base consistia em reclassificadores orientados ao raciocínio de alto desempenho, como ReasonRank-32B e Rank-R1.

O DCI superou sistematicamente as linhas de base, segundo os pesquisadores. No complexo benchmark BrowseComp-Plus, a troca de um recuperador semântico Qwen3 tradicional por DCI em um spine Claude Sonnet 4.6 melhorou a precisão de 69,0% para 80,0%, ao mesmo tempo que reduziu o custo da API de US$ 1.440 para US$ 1.016. O retorno do investimento para agentes leves também foi notável. DCI-Agent-Lite com GPT-5.4 nano competiu com o modelo OpenAI o3 usando recuperação tradicional enquanto cortava custos em mais de US$ 600.

Resultados do DCI

DCI aumenta o desempenho e reduz significativamente os custos (fonte: arXiv)

Em benchmarks de controle de qualidade multi-hop, o DCI-Agent-CC atingiu uma precisão média de 83,0%, melhorando a linha de base de recuperação de peso aberto mais forte em 30,7 pontos, de acordo com os pesquisadores.

Os dados mostram que o DCI tem menor recuperação geral de documentos do que modelos de incorporação densa, mas, uma vez encontrado um documento relevante, extrai dele substancialmente mais valor.

“Se um líder de IA empresarial perguntasse onde o DCI é mais claramente útil, eu apontaria para tarefas que exigem localização exata de evidências em um espaço de trabalho dinâmico: depuração de incidentes de produção, pesquisa em grandes bases de código, análise de logs, investigação de conformidade, trilhas de auditoria ou análise de causa raiz de vários documentos”, observam os pesquisadores.

Em uma tarefa complexa de pesquisa profunda, o agente teve que identificar uma partida de futebol específica com base em 12 pistas interligadas, incluindo comparecimento exato, cartões amarelos e datas de nascimento dos jogadores. Um retriever tradicional falharia ao trazer à tona trechos curtos e desconectados. Em vez disso, o agente do DCI explorou o diretório de arquivos, leu linhas específicas de um relatório do jogo Inglaterra x Bélgica de 1990 para verificar o número exato de substituições, extraiu uma citação específica de um arquivo de entrevista e verificou as datas exatas de nascimento de dois jogadores espiando seus arquivos de texto da Wikipedia. Ao encadear esses comandos simples, o DCI garante que nenhuma evidência seja perdida permanentemente por trás de um algoritmo de busca semântica falho.

Limites e implementação prática do DCI

O DCI tem um envelope operacional claro onde se adapta perfeitamente à profundidade da pesquisa, mas tem dificuldades com a amplitude da pesquisa. Quando o corpus experimental foi ampliado de 100 mil para 400 mil documentos, a precisão do sistema caiu significativamente e o número médio de chamadas de ferramentas aumentou. Embora o DCI seja poderoso quando um documento promissor é encontrado, o custo de localizar esse documento âncora útil inicial aumenta acentuadamente à medida que o tamanho do espaço candidato aumenta.

O DCI também tem menor recuperação ampla de documentos em comparação com modelos de incorporação densa. Ele troca recall exaustivo por precisão native de alta resolução. Se um fluxo de trabalho empresarial exige estritamente a localização de todos os documentos relevantes em um enorme conjunto de dados, o DCI pode não ser a ferramenta certa.

Conceder a um agente ferramentas expressivas, como um shell bash irrestrito, aumenta a latência e os custos de computação devido ao alto quantity de chamadas de ferramentas iterativas necessárias para concluir uma pesquisa. Ele também cria desafios significativos de gerenciamento de contexto e segurança para os departamentos de TI.

“As chamadas de ferramentas podem retornar grandes resultados; longas trajetórias podem preencher a janela de contexto; e o acesso bruto ao terminal requer sandboxing, controle de permissão e engenharia cuidadosa”, disseram os autores. Para gerenciar a janela de contexto, os pesquisadores descobriram que o truncamento e a compactação moderados ajudam o agente a sustentar pesquisas mais longas, enquanto um resumo excessivamente agressivo tende a descartar evidências úteis.

Devido a estas realidades operacionais, o DCI não pretende ser um substituto obrigatório da infra-estrutura vetorial existente. Em vez disso, serve como complementar.

“Para engenheiros de orquestração e arquitetos de dados, nossa visão é que o padrão de implantação mais prático no curto prazo é o híbrido”, disseram os autores. A recuperação semântica ainda pode fornecer descoberta de candidatos com alto recall quando a intenção do usuário é ampla ou subespecificada. “O DCI pode então operar como uma camada de precisão e verificação: o agente pode pesquisar nos documentos recuperados, expandi-los para arquivos vizinhos, verificar restrições exatas e combinar sinais fracos entre documentos.”

Os pesquisadores divulgaram o código para DCI sob a licença permissiva do MIT.

“A longo prazo, o DCI muda a forma como pensamos sobre os dados empresariais. Os dados não precisarão apenas ser armazenados para humanos ou indexados para mecanismos de pesquisa; eles precisarão ser organizados para agentes que possam inspecionar, comparar, executar grep, rastrear e verificar”, concluem os autores. “Nomes de arquivos, carimbos de information e hora, identificadores estáveis, metadados, histórico de versões e estrutura legível por máquina tornam-se parte da interface de recuperação.”

fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui