Início Tecnologia Os agentes empresariais de IA continuam falhando porque esquecem o que aprenderam

Os agentes empresariais de IA continuam falhando porque esquecem o que aprenderam

21
0

As arquiteturas RAG são boas em uma coisa: trazer à tona documentos semanticamente relevantes. É aí também que eles param.

Uma estrutura chamada gráfico de contexto de decisão aborda essa lacuna, fornecendo aos agentes memória estruturada, raciocínio consciente do tempo e lógica de decisão explícita. Ondulaçãouma startup do ecossistema Neo4j, construiu um. A principal capacidade: agentes não regressivos, capazes de congelar sequências de ações validadas e combiná-las ao longo do tempo.

“O ponto-chave que você deseja é a não regressividade: como garantir que, quando o agente gerar algo novo, você possa aumentar as descobertas anteriores?” disse Yann Bilien, cofundador e diretor científico da Rippletid.

Por que RAG não vai longe o suficiente

O contexto empresarial está espalhado por ferramentas ERP, logs, bancos de dados, armazenamentos de vetores e documentos de políticas. As ferramentas generativas de IA podem recuperar tudo isso – por meio de pesquisa por palavra-chave, consultas SQL ou pipelines RAG completos – mas a recuperação tem um limite.

Notavelmente, os dados recuperados podem não ser relevantes para a decisão em questão (causando assim alucinações); e, mesmo que os agentes obtenham os dados corretos, muitas vezes carecem de orientação para tomar decisões apoiadas por uma fundamentação sólida.

Ou seja, o RAG recupera documentos, não o contexto da decisão. “Todo mundo começa com RAG: extraia os documentos relevantes, coloque-os no immediate e deixe o modelo descobrir”, disse Wyatt Mayham, da Consultoria de IA do Noroeste.

Embora isso funcione bem para chatbots, “quebra imediatamente” para agentes que precisam tomar decisões e agir, ressaltou. “A maior dificuldade dos construtores é a lacuna entre a recuperação e a aplicabilidade.”

Um documento recuperado não informa ao agente se ainda se aplica, se foi substituído ou se há uma regra conflitante que tenha prioridade, disse Mayham. “Os agentes precisam de contexto de decisão, não apenas de informações.”

Na construção (o mundo humano), isso pode significar saber que uma exceção de preços expirou, que uma política de segurança só se aplica em determinadas jurisdições ou que um procedimento operacional padrão foi atualizado um mês antes. “Se você perder tudo isso, o agente fará a coisa errada com confiança”, disse Mayham.

Sem um contexto de decisão estruturado, os agentes combinam regras incompatíveis, inventam restrições para preencher lacunas e confiam no que Bilien chama de “suposições probabilísticas sobre dados ilimitados”. Os erros são difíceis de reproduzir porque os construtores não conseguem rastrear por que o agente fez uma determinada escolha.

O problema de erros compostos também é actual, disse Mayham: uma pequena taxa de erros por etapa torna-se “catastrófica” em um fluxo de trabalho de várias etapas. “Essa é a principal razão pela qual a maioria dos agentes empresariais nunca sai da fase piloto.”

Como os gráficos de contexto de decisão chegam à resposta relevante

Um gráfico de contexto de decisão resolve isso codificando um mapa estruturado do que é aplicável, quais são as regras e quando elas se aplicam.

A estrutura é otimizada para uma pergunta: “Dada esta situação, qual contexto se aplica neste momento?” O tempo é tratado como uma dimensão de primeira classe; cada regra, decisão e exceção tem como escopo quando é válida.

“O objetivo é abordar explicitamente dados ausentes, incoerentes ou contraditórios ao construir o gráfico para evitar erros probabilísticos. [errors] assim que o agente estiver em execução”, disse Bilien.

O sistema é construído em torno de três princípios:

  • Aplicabilidade: A lógica é explicitamente codificada para que o agente saiba quais regras lembrar e aplicar em uma determinada situação. O contexto é retornado somente quando é relevante para a situação.

  • Memória com reconhecimento de tempo: Cada regra, decisão e exceção tem escopo de tempo. Isso permite que os agentes raciocinem sobre “O que period verdade naquela época versus o que é verdade agora” e depois reproduzam ou expliquem suas decisões.

  • Caminhos de decisão: O sistema pode explicar como foi de A para B e o “porquê” por trás da sua lógica (por exemplo, por que uma parte do contexto foi incluída e outra não). Os agentes recebem exemplos de “caminhos de decisão” de como casos semelhantes foram tratados antes.

Na configuração, os dados não estruturados são ingeridos e estruturados em uma ontologia: quais entidades existem, quais regras se aplicam, o que conta como exceção. A IA neuro-simbólica lida com o reconhecimento de padrões e codifica uma lógica formal legível por máquina. Com o tempo, o sistema refina sua base de conhecimento à medida que novas decisões são tomadas.

“O neurosimbólico traz duas partes: uma parte neuronal que dá grande autonomia aos agentes e uma parte simbólica para reduzir o número de dados necessários e trazer controle”, disse Bilien.

O agente é testado em tempo de construção (pré-produção) para validar seus comportamentos ou apontar melhorias. Isso reduz os riscos, bem como as necessidades de computação durante a inferência, observou ele.

Agentes aprendendo, em vez de regredir

Quando se trata de não regressão, a peça-chave é a combinação tanto da inteligência (modelos) quanto do conhecimento (compartilhado entre os agentes), disse Bilien. É importante que os agentes possam explorar; quando não sabem como realizar uma tarefa, podem tentar diferentes possibilidades, normalmente em um ambiente controlado ou simulação (como um bot de suporte tentando vários padrões de resposta).

Então, “uma vez que uma solução é avaliada como satisfatória, o gráfico congela essa sequência de ações”, disse Bilien. A exploração futura começa então a partir desta “base estável de comportamentos validados” para evitar que habilidades recém-adquiridas substituam o bom comportamento previamente aprendido.

Antes de um agente agir ou afetar um cliente, ele verifica o gráfico: está violando uma regra? Alucinando? Ficar dentro das restrições? Pode generalizar a solução para casos semelhantes?

A um nível macro, o sistema avalia os resultados: O comportamento melhorou o desempenho a longo prazo? Generalizou em contextos semelhantes? Preservou as capacidades anteriores?

“Esse determinismo é basic para que os agentes administrem a confiabilidade em escala”, disse Bilien. Isso leva a um comportamento mais consistente, previsível, explicável e que permite maior controle e auditabilidade.

“Você quer que seus agentes sejam capazes de aprender por si mesmos quando enfrentarem algo que não sabem”, disse ele. “Você quer que eles sejam capazes de explorar e encontrar novas soluções.”

Indo além da memória “episódica”

Embora a equipe inicialmente tenha assumido que implantaria RL em todos os lugares, “isso na verdade se mostrou muito difícil em um ambiente empresarial”, disse Bilien. “Os dados são escassos para alguns casos de uso específicos e confusos para outros.”

Normalmente, usar dados brutos para previsões confiáveis ​​tem sido um desafio guide e demorado, mas “agora, com os agentes, entramos em uma nova period em que a construção de ontologias é possível automaticamente”, disse Bilien.

Os métodos clássicos de ajuste fino supervisionado podem levar a oscilações, quando os modelos esquecem a última habilidade que aprenderam enquanto aprendem o próximo tom. No geral, a aprendizagem não é agravada, a compressão é “dramática” e os modelos melhoram “episodicamente” em vez de continuamente, levando-os a falhar continuamente em tarefas novas ou invisíveis.

Como observou Bilien: “Você nunca terá um modelo totalmente de autoaprendizagem se estiver sempre regredindo”.

Em casos de uso empresarial – como bancos, onde milhões de transações são processadas por dia – um alto nível de confiabilidade é basic, observou ele. “Uma pergunta que faço a todos os clientes: 95% é suficiente? Em muitos casos de uso, não é. Você precisa de 99,999%. 1% de desconto é demais.”

Os gráficos de contexto de decisão podem preencher essa lacuna, afirma ele: quando a mesma pergunta de suporte ao cliente é feita repetidamente, o agente retornará uma resposta “satisfatória” de forma previsível e sem regressão, ao mesmo tempo que mantém a autonomia.

Codificar a aplicabilidade e a validade temporal em um gráfico estruturado – em vez de depender de um LLM para inferir isso – é uma “abordagem sólida” para uma limitação actual nas estruturas de recuperação existentes, disse Mayham. A questão em aberto é se a geração automática de ontologias resiste aos dados confusos e diversos que as empresas realmente possuem. “Essa é sempre a parte difícil”, disse ele.

fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui