Início Tecnologia A nova estrutura permite que os agentes de IA reescrevam suas próprias...

A nova estrutura permite que os agentes de IA reescrevam suas próprias habilidades sem retreinar o modelo subjacente

22
0

Um grande desafio na implantação de agentes autônomos é construir sistemas que possam se adaptar às mudanças em seus ambientes sem a necessidade de treinar novamente os grandes modelos de linguagem (LLMs) subjacentes.

Habilidades de lembrançauma nova estrutura desenvolvida por investigadores em diversas universidades, aborda este estrangulamento, dando aos agentes a capacidade de desenvolverem as suas competências por si próprios. “Acrescenta seu aprendizagem contínua capacidade para as ofertas existentes no mercado atual, como OpenClaw e Claude Code”, disse Jun Wang, coautor do artigo, à VentureBeat.

Memento-Expertise atua como uma memória externa em evolução, permitindo ao sistema melhorar progressivamente suas capacidades sem modificar o modelo subjacente. A estrutura fornece um conjunto de habilidades que podem ser atualizadas e expandidas à medida que o agente recebe suggestions do seu ambiente.

Para equipes empresariais que executam agentes em produção, isso é importante. A alternativa – ajuste fino dos pesos do modelo ou construção guide de habilidades – acarreta sobrecarga operacional e requisitos de dados significativos. Memento-Expertise evita ambos.

Os desafios de construir agentes autoevolutivos

Os agentes autoevolutivos são cruciais porque superam as limitações dos modelos de linguagem congelada. Uma vez implantado um modelo, seus parâmetros permanecem fixos, restringindo-o ao conhecimento codificado durante o treinamento e ao que couber em sua janela de contexto imediato.

Fornecer ao modelo uma estrutura de memória externa permite que ele melhore sem o processo caro e lento de retreinamento. No entanto, as abordagens atuais à adaptação dos agentes dependem em grande parte de competências concebidas manualmente para lidar com novas tarefas. Embora existam alguns métodos automáticos de aprendizagem de habilidades, eles produzem principalmente guias somente em texto que equivalem à otimização imediata. Outras abordagens simplesmente registram trajetórias de tarefa única que não são transferidas entre tarefas diferentes.

Além disso, quando estes agentes tentam recuperar conhecimento relevante para uma nova tarefa, normalmente dependem de roteadores de similaridade semântica, tais como incorporações densas padrão; a alta sobreposição semântica não garante utilidade comportamental. Um agente que depende do RAG padrão pode recuperar um script de “redefinição de senha” para resolver uma consulta de “processamento de reembolso” simplesmente porque os documentos compartilham a terminologia empresarial.

“A maioria dos sistemas de geração aumentada de recuperação (RAG) dependem de recuperação baseada em similaridade. No entanto, quando as habilidades são representadas como artefatos executáveis, como documentos de remarcação ou trechos de código, a similaridade por si só pode não selecionar a habilidade mais eficaz”, disse Wang.

Como o Memento-Expertise armazena e atualiza habilidades

Para resolver as limitações dos sistemas de agentes atuais, os pesquisadores construíram o Memento-Expertise. O artigo descreve o sistema como “um sistema de agente LLM generalista e continuamente aprendível que funciona como um agente de design de agente”. Em vez de manter um registro passivo de conversas anteriores, o Memento-Expertise cria um conjunto de habilidades que atuam como uma memória externa persistente e em evolução.

Aprendizagem reflexiva de leitura e escrita (fonte: arXiv)

Essas habilidades são armazenadas como arquivos markdown estruturados e servem como base de conhecimento em evolução do agente. Cada artefato de habilidade reutilizável é composto por três elementos principais. Ele contém especificações declarativas que descrevem o que é a habilidade e como ela deve ser usada. Inclui instruções e prompts especializados que orientam o raciocínio do modelo de linguagem. E abriga o código executável e os scripts auxiliares que o agente executa para realmente resolver a tarefa.

O Memento-Expertise alcança aprendizado contínuo por meio de seu mecanismo “Learn-Write Reflective Studying”, que enquadra as atualizações de memória como uma iteração de política ativa, em vez de registro passivo de dados. Quando confrontado com uma nova tarefa, o agente consulta um roteador de habilidades especializado para recuperar a habilidade comportamentalmente mais relevante – e não apenas a mais semanticamente semelhante – e a executa.

Depois que o agente executa a habilidade e recebe suggestions, o sistema reflete sobre o resultado para fechar o ciclo de aprendizagem. Em vez de apenas anexar um registro do que aconteceu, o sistema altera ativamente sua memória. Se a execução falhar, um orquestrador avalia o rastreamento e reescreve os artefatos de habilidade. Isso significa que ele atualiza diretamente o código ou solicita a correção do modo de falha específico. Em caso de necessidade, cria uma habilidade totalmente nova.

O Memento-Expertise também atualiza o roteador de habilidades por meio de um processo de aprendizagem por reforço offline de uma etapa que aprende com o suggestions da execução, em vez de apenas sobreposição de texto. “O verdadeiro valor de uma habilidade está em como ela contribui para o fluxo de trabalho geral da agência e para a execução downstream”, disse Wang. “Portanto, a aprendizagem por reforço fornece uma estrutura mais adequada, pois permite ao agente avaliar e selecionar competências com base na utilidade a longo prazo.”

Estrutura Memento-Skills

Estrutura Memento-Expertise (fonte: arXiv)

Para evitar a regressão em um ambiente de produção, as mutações automatizadas de habilidades são protegidas por uma porta automática de teste unitário. O sistema gera um caso de teste sintético, executa-o através da habilidade atualizada e verifica os resultados antes de salvar as alterações na biblioteca international.

Ao reescrever e refinar continuamente suas próprias ferramentas executáveis, o Memento-Expertise permite que um modelo de linguagem congelada construa uma memória muscular robusta e expanda progressivamente suas capacidades de ponta a ponta.

Colocando o agente autoevolutivo à prova

Os pesquisadores avaliaram o Memento-Expertise em dois benchmarks rigorosos. O primeiro é Assistentes gerais de IA (GAIA), que requer raciocínio complexo em várias etapas, manuseio multimodalidade, navegação na net e uso de ferramentas. O segundo é O Último Exame da Humanidadeou HLE, uma referência de nível especializado que abrange oito disciplinas acadêmicas diversas, como matemática e biologia. Todo o sistema foi alimentado por Gêmeos-3.1-Flash atuando como o modelo de linguagem congelada subjacente.

O sistema foi comparado com uma linha de base de leitura-escrita que recupera habilidades e coleta suggestions, mas não possui recursos de autoevolução. Os pesquisadores também testaram seu roteador de habilidades personalizado em relação às linhas de base de recuperação semântica padrão, incluindo BM25 e Incorporações Qwen3.

Desempenho de habilidades de lembrança

Desempenho no benchmark GAIA (Memento-Expertise vs Learn-Write) (fonte: arXiv)

Os resultados provaram que a memória com autoevolução ativa supera amplamente uma biblioteca de habilidades estáticas. No benchmark GAIA altamente diversificado, o Memento-Expertise melhorou a precisão do conjunto de testes em 13,7 pontos percentuais em relação à linha de base estática, alcançando 66,0% em comparação com 52,3%. No benchmark HLE, onde a estrutura do domínio permitiu a reutilização massiva de habilidades entre tarefas, o sistema mais que dobrou o desempenho da linha de base, saltando de 17,9% para 38,7%.

Além disso, o roteador de habilidades especializado do Memento-Expertise evita a clássica armadilha de recuperação, onde uma habilidade irrelevante é selecionada simplesmente por causa da semelhança semântica. Experimentos mostram que o Memento-Expertise aumenta as taxas de sucesso de tarefas ponta a ponta para 80%, em comparação com apenas 50% para a recuperação padrão do BM25.

Os pesquisadores observaram que o Memento-Expertise gerencia esse desempenho por meio do crescimento de habilidades estruturadas e altamente orgânicas. Ambos os experimentos de benchmark começaram com apenas cinco habilidades iniciais atômicas, como pesquisa básica na net e operações de terminal. No benchmark GAIA, o agente expandiu autonomamente este grupo inicial em uma biblioteca compacta de 41 habilidades para lidar com as diversas tarefas. No benchmark HLE de nível especializado, o sistema escalou dinamicamente sua biblioteca para 235 habilidades distintas.

Desenvolvimento de habilidades de memento

Memento-Expertise começa com uma semente de habilidades (estrelas) e desenvolve mais habilidades (círculos) à medida que resolve tarefas (fonte: arXiv)

Encontrando o ponto preferrred da empresa

Os pesquisadores divulgaram o código para Memento-Habilidades no GitHube está prontamente disponível para uso.

Para arquitetos empresariais, a eficácia deste sistema depende do alinhamento do domínio. Em vez de simplesmente observar as pontuações de benchmark, a principal desvantagem do negócio reside em saber se seus agentes estão lidando com tarefas isoladas ou fluxos de trabalho estruturados.

“A transferência de competências depende do grau de semelhança entre as tarefas”, disse Wang. “Primeiro, quando as tarefas são isoladas ou pouco relacionadas, o agente não pode confiar na experiência anterior e deve aprender através da interação”. Nesses ambientes dispersos, a transferência entre tarefas é limitada. “Em segundo lugar, quando as tarefas partilham uma estrutura substancial, as competências previamente adquiridas podem ser reutilizadas diretamente. Aqui, a aprendizagem torna-se mais eficiente porque o conhecimento é transferido entre as tarefas, permitindo ao agente um bom desempenho em novos problemas com pouca ou nenhuma interação adicional.”

Dado que o sistema exige padrões de tarefas recorrentes para consolidar o conhecimento, os líderes empresariais precisam saber exatamente onde implantar isso hoje e onde adiar.

“Os fluxos de trabalho são provavelmente o cenário mais apropriado para esta abordagem, pois fornecem um ambiente estruturado no qual as competências podem ser compostas, avaliadas e melhoradas”, disse Wang.

No entanto, alertou contra a implantação excessiva em áreas ainda não adequadas ao quadro. “Os agentes físicos permanecem amplamente inexplorados neste contexto e requerem investigação mais aprofundada. Além disso, tarefas com horizontes mais longos podem exigir abordagens mais avançadas, como sistemas LLM multiagentes, para permitir coordenação, planejamento e execução sustentada em sequências estendidas de decisões.”

À medida que a indústria avança em direção a agentes que reescrevem autonomamente o seu próprio código de produção, a governação e a segurança continuam a ser fundamentais. Embora o Memento-Expertise empregue trilhos de segurança básicos, como portas automáticas de teste de unidade, provavelmente será necessária uma estrutura mais ampla para a adoção pelas empresas.

“Para permitir um autoaperfeiçoamento confiável, precisamos de um sistema de avaliação ou julgamento bem projetado que possa avaliar o desempenho e fornecer orientação consistente”, disse Wang. “Em vez de permitir a automodificação irrestrita, o processo deve ser estruturado como uma forma guiada de autodesenvolvimento, onde o suggestions orienta o agente em direção a melhores projetos”.

fonte