Início Tecnologia Como o RecursiveMAS acelera a inferência multiagente em 2,4x e reduz o...

Como o RecursiveMAS acelera a inferência multiagente em 2,4x e reduz o uso de tokens em 75%

8
0

Um dos principais desafios dos atuais sistemas de IA multiagentes é que eles se comunicam gerando e compartilhando sequências de texto, o que introduz latência, aumenta os custos de tokens e dificulta o treinamento de todo o sistema como uma unidade coesa.

Para superar este desafio, pesquisadores da Universidade de Illinois Urbana-Champaign e da Universidade de Stanford desenvolveram MAS recursivouma estrutura que permite aos agentes colaborar e transmitir informações por meio da incorporação de espaço em vez de texto. Essa mudança resulta em ganhos de eficiência e desempenho.

Experimentos mostram que o RecursiveMAS alcança melhorias de precisão em domínios complexos, como geração de código, raciocínio médico e pesquisa, ao mesmo tempo que aumenta a velocidade de inferência e reduz o uso de tokens.

O RecursiveMAS é significativamente mais barato de treinar do que os métodos padrão de ajuste fino complete ou LoRA, tornando-o um modelo escalonável e econômico para sistemas multiagentes personalizados.

Os desafios de melhorar sistemas multiagentes

Sistemas multiagentes pode ajudar a resolver tarefas complexas que os sistemas de agente único têm dificuldade em realizar. Ao dimensionar sistemas multiagentes para aplicações do mundo actual, um grande desafio é permitir que o sistema evolua, melhore e se adapte a diferentes cenários ao longo do tempo.

A adaptação baseada em prompts melhora as interações dos agentes, refinando iterativamente o contexto compartilhado fornecido aos agentes. Ao atualizar os prompts, o sistema atua como um diretor, orientando os agentes a gerar respostas mais alinhadas ao objetivo geral. A limitação basic é que as capacidades dos modelos subjacentes a cada agente permanecem estáticas.

Uma abordagem mais sofisticada é treinar os agentes atualizando os pesos dos modelos subjacentes. Treinar um sistema inteiro de agentes é difícil porque atualizar todos os parâmetros em vários modelos não é trivial do ponto de vista computacional.

Mesmo que uma equipe de engenharia se comprometa a treinar seus modelos, o método padrão de comunicação dos agentes por meio de interações baseadas em texto cria grandes gargalos. Como os agentes dependem da geração sequencial de texto, isso causa latência, pois cada modelo deve esperar que o anterior termine de gerar seu texto antes de poder iniciar seu próprio processamento.

Forçar os modelos a explicar seu raciocínio intermediário token por token apenas para que o próximo modelo possa lê-lo é altamente ineficiente. Ele inflaciona severamente o uso de tokens, aumenta os custos de computação e torna o aprendizado iterativo em todo o sistema dolorosamente lento para escalar.

Como funciona o RecursiveMAS

Em vez de tentar melhorar cada agente como um componente isolado e independente, o RecursiveMAS foi projetado para co-evoluir e dimensionar todo o sistema multiagente como um todo único e integrado.

O quadro é inspirado em modelos de linguagem recursiva (RLM). Em um modelo de linguagem padrão, os dados fluem linearmente através de uma pilha de camadas distintas. Em contraste, um modelo de linguagem recursiva reutiliza um conjunto de camadas compartilhadas que processa os dados e os realimenta a si mesmo. Ao repetir o cálculo, o modelo pode aprofundar seu raciocínio sem adicionar parâmetros.

Arquitetura recursivaMAS (fonte: arXiv)

O RecursiveMAS estende esse princípio de escalonamento de um modelo único para uma arquitetura multiagente que atua como um sistema recursivo unificado. Nesta configuração, cada agente funciona como uma camada em um modelo de linguagem recursiva. Em vez de gerar texto, os agentes passam iterativamente suas representações latentes contínuas para o próximo agente na sequência, criando um fluxo oculto de informações em loop que flui através do sistema.

Essa transferência latente continua através de todos os agentes. Quando o agente ultimate termina seu processamento, suas saídas latentes são enviadas diretamente de volta ao primeiro agente, iniciando uma nova rodada de recursão.

Esta estrutura permite que todo o sistema multiagente interaja, reflita e refine seu raciocínio coletivo ao longo de múltiplas rodadas inteiramente no espaço latente, com apenas o último agente produzindo uma saída textual na rodada ultimate. É como se os agentes estivessem se comunicando telepaticamente como um todo unificado e o último agente fornecesse a resposta ultimate em forma de texto.

A arquitetura da colaboração latente

Para tornar possível a colaboração contínua no espaço latente, os autores introduzem um componente arquitetônico especializado chamado RecursiveLink. Este é um módulo leve de duas camadas projetado para transmitir e refinar os estados latentes de um modelo, em vez de forçá-lo a decodificar o texto.

Os estados ocultos da última camada de um modelo de linguagem contêm a representação semântica rica de seu processo de raciocínio. O RecursiveLink foi projetado para preservar e transmitir essas informações de alta dimensão de um espaço de incorporação para outro.

Para evitar o custo de atualização de cada parâmetro em vários modelos de linguagem grandes, a estrutura mantém os parâmetros dos modelos congelados. Em vez disso, otimiza o sistema treinando apenas os parâmetros dos módulos RecursiveLink.

Aprendizagem Recursiva

Processo de aprendizagem recursiva (fonte: arXiv)

Para lidar com o raciocínio interno e a comunicação externa, o sistema utiliza duas variações do módulo. O RecursiveLink interno opera dentro de um agente durante sua fase de raciocínio. Ele pega os embeddings recém-gerados do modelo e os mapeia diretamente de volta ao seu próprio espaço de incorporação de entrada. Isso permite que o agente gere continuamente um fluxo de pensamentos latentes sem gerar tokens de texto discretos.

O RecursiveLink externo serve como ponte entre os agentes. Como os agentes em um sistema do mundo actual podem usar diferentes arquiteturas e tamanhos de modelos, seus espaços internos de incorporação têm dimensões totalmente diferentes. O RecursiveLink externo inclui uma camada adicional projetada para combinar os embeddings da dimensão oculta de um agente com o espaço de incorporação do próximo agente.

Durante o treinamento, primeiro, os elos internos são treinados de forma independente para aquecer a capacidade de cada agente de pensar em incorporações latentes contínuas. Em seguida, o sistema entra no treinamento de loop externo, onde os diversos modelos congelados são encadeados em um loop, e o sistema é avaliado com base na saída textual ultimate do último agente.

A única coisa que é atualizada no processo de treinamento são os parâmetros do RecursiveLink e os pesos do modelo authentic permanecem inalterados, semelhante a adaptação de baixo escalão (LoRA). Outra vantagem desse sistema entra em vigor quando você tem vários agentes no mesmo modelo de spine.

Se você tiver um sistema multiagente em que dois agentes são construídos exatamente no mesmo modelo básico, atuando em funções diferentes, não será necessário carregar duas cópias do modelo na memória da GPU, nem treiná-las separadamente. Os agentes compartilharão a mesma estrutura do cérebro e usarão o RecursiveLink como tecido conjuntivo.

MAS recursivo em ação

Os pesquisadores avaliaram o RecursiveMAS em nove benchmarks que abrangem matemática, ciências e medicina, geração de código e resposta a perguntas baseadas em pesquisa. Eles criaram um sistema multiagente usando modelos de peso aberto, incluindo Qwen, Llama-3, Gemma3 e Mistral. Esses modelos receberam funções para formar diferentes padrões de colaboração de agentes, como raciocínio sequencial e colaboração mista de especialistas.

aceleração de inferência

RecursiveMAS melhora a velocidade de inferência em 1,2-2,2X (fonte: GitHub)

O RecursiveMAS foi comparado a linhas de base com orçamentos de treinamento idênticos, incluindo modelos autônomos aprimorados com LoRA ou ajuste fino totalmente supervisionado, estruturas multiagentes alternativas como Combination-of-Brokers e TextGrad e linhas de base recursivas como LoopLM. Também foi comparado ao Recursive-TextMAS, que usa a mesma estrutura de loop recursivo do RecursiveMAS, mas força os agentes a se comunicarem explicitamente through texto.

O RecursiveMAS alcançou uma melhoria média de precisão de 8,3% em comparação com as linhas de base mais fortes entre os benchmarks. Ele se destacou principalmente em tarefas de raciocínio pesado, superando métodos de otimização baseados em texto como TextGrad em 18,1% no AIME2025 e 13% no AIME2026.

aceleração de token

RecursiveMAS reduz o consumo de tokens em até 75% (fonte: GitHub)

Como evita a geração de texto em cada etapa, o RecursiveMAS alcançou uma aceleração de inferência de 1,2x a 2,4x de ponta a ponta. O RecursiveMAS também é muito mais eficiente em termos de tokens do que a alternativa. Comparado ao Recursive-TextMAS baseado em texto, ele reduz o uso de token em 34,6% na primeira rodada da recursão e, na terceira rodada, atinge 75,6% de redução de token. O RecursiveMAS também se mostrou extremamente barato para treinar. Como ele atualiza apenas os módulos leves do RecursiveLink, que consistem em aproximadamente 13 milhões de parâmetros ou cerca de 0,31% dos parâmetros treináveis ​​dos modelos congelados, ele requer o menor pico de memória da GPU e reduz os custos de treinamento em mais da metade em comparação com o ajuste fino completo.

Adoção empresarial

Os ganhos de eficiência – menor consumo de tokens, requisitos reduzidos de memória de GPU e inferência mais rápida – têm como objetivo tornar viáveis ​​fluxos de trabalho complexos de agentes de várias etapas em ambientes de produção sem a sobrecarga de computação que limita as implantações de agentes corporativos. Os pesquisadores divulgaram o código e pesos do modelo treinado sob a licença Apache 2.0.

fonte

This hidden text is for search engines. Hidden Link

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui