Início Tecnologia A nova estrutura de IA do Alibaba ignora o carregamento de todas...

A nova estrutura de IA do Alibaba ignora o carregamento de todas as ferramentas, reduzindo o uso de token do agente em 99%

20
0

À medida que os sistemas empresariais de IA são dimensionados para lidar com fluxos de trabalho complexos, os profissionais enfrentam o desafio de encaminhar subtarefas para as ferramentas e habilidades certas. Os agentes podem ter centenas de ferramentas e habilidades e ficar confusos sobre qual usar em cada etapa de um fluxo de trabalho.

Para enfrentar este desafio, os pesquisadores do Alibaba desenvolveram SkillWeaveruma estrutura que cria um gráfico de execução para uma determinada tarefa e escolhe as habilidades certas para cada um dos nós. Eles também introduzem a Ability-Conscious Decomposition (SAD), uma nova técnica que usa um ciclo de suggestions para permitir que o agente busque e look at iterativamente candidatos a ferramentas relevantes. Essa abordagem composicional e mecanismo de suggestions distinguem o SkillWeaver de outras estruturas de roteamento de ferramentas que escolhem ferramentas de uma só vez.

SkillWeaver está relacionado a aplicativos de IA do mundo actual, onde os agentes orquestram autonomamente ecossistemas de múltiplas ferramentas, como o Mannequin Context Protocol (MCP), para executar operações de negócios em várias etapas, como obtain de conjuntos de dados, transformação de informações e criação de relatórios visuais.

Na prática, os experimentos dos pesquisadores com o SkillWeaver mostram que a implementação dessa abordagem de recuperação e roteamento aumenta significativamente a precisão e reduz o consumo de tokens em mais de 99% em comparação com a exposição ingênua dos agentes a uma biblioteca inteira de ferramentas.

Para os profissionais que criam agentes de IA, a principal conclusão é que a granularidade da decomposição da tarefa é o maior gargalo para a recuperação precisa da ferramenta.

O desafio do roteamento de habilidades

As habilidades são um padrão elementary nas arquiteturas modernas de agentes LLM. Uma habilidade é uma especificação de ferramenta modular e reutilizável que usa documentação estruturada em linguagem pure.

À medida que os agentes corporativos se integram a enormes ecossistemas de ferramentas, encaminhar com precisão as consultas dos usuários para as habilidades certas torna-se uma tarefa difícil. Expor uma biblioteca inteira a um LLM para encontrar a ferramenta certa é altamente ineficiente, ultrapassa rapidamente os limites de contexto e consome centenas de milhares de tokens.

A maioria das estruturas atuais de uso de ferramentas tenta resolver isso por meio de recuperação de API, correspondência de documentação ou estruturas hierárquicas que tratam o roteamento estritamente como uma seleção de habilidade única ou um problema por etapa.

No entanto, este paradigma de habilidade única é insuficiente para ambientes empresariais porque as consultas do mundo actual são inerentemente composicionais. Uma solicitação comercial padrão como “Baixar o conjunto de dados, transformá-lo e criar relatórios visuais” não pode ser atendida por uma ferramenta. Requer dividir o immediate e sequenciar um cliente API, um processador de dados e uma ferramenta de visualização em um plano de execução coeso e de várias etapas.

Como funcionam o SkillWeaver e o SAD

Para resolver isso, os pesquisadores enquadram o problema de lidar com tarefas complexas que exigem múltiplas habilidades como “roteamento de habilidades composicionais”. Dado um immediate de usuário complexo e uma vasta biblioteca de ferramentas, um agente deve simultaneamente descobrir como dividir a solicitação em uma sequência de subtarefas atômicas, como mapear cada subtarefa para a melhor habilidade disponível e como compor essas habilidades em um plano executável.

SkillWeaver orquestra esse processo por meio de três estágios distintos: Decompor, Recuperar e Compor. No primeiro estágio, um LLM atua como um decompositor de tarefas, dividindo a consulta complexa do usuário em uma sequência de subtarefas, cada uma exigindo uma habilidade. Depois que as subtarefas estão claramente definidas, o sistema usa um modelo de incorporação para comparar cada subtarefa com a biblioteca de habilidades para obter uma lista das principais ferramentas candidatas para cada etapa.

Na fase last, um planejador avalia os candidatos recuperados com base em quão bem eles trabalham juntos. Ele verifica a compatibilidade entre habilidades para garantir que as saídas de uma ferramenta fluam naturalmente para as entradas da próxima. Em seguida, ele cria um plano de execução last como um Gráfico Acíclico Direcionado (DAG) que mapeia dependências para que tarefas independentes possam ser potencialmente executadas em paralelo.

Por exemplo, considere um usuário pedindo a um agente de IA para “baixar o conjunto de dados, transformá-lo e criar relatórios visuais”. No estágio de decomposição, o decompositor LLM divide isso em três subtarefas distintas: baixar o conjunto de dados, transformar os dados e criar os relatórios.

No estágio de recuperação, o sistema pesquisa a biblioteca e encontra candidatos como “api-client” ou “http-fetch” para a tarefa um, “csv-parser” ou “etl-pipeline” para a tarefa dois e assim por diante. Por fim, o estágio de composição avalia essas opções, seleciona a combinação específica de “api-client”, “csv-parser” e “chart-gen” que são mais compatíveis e as conecta em um fluxo de trabalho last pronto para execução.

Um dos principais desafios deste pipeline é que os LLMs muitas vezes produzem descrições genéricas de etapas que não correspondem ao vocabulário técnico específico das habilidades reais disponíveis na biblioteca. Para corrigir isso, o SkillWeaver apresenta a Decomposição Iterativa com Conhecimento de Habilidades (SAD), um novo ciclo de suggestions. O SAD funciona fazendo com que o LLM esboce um plano inicial, conduzindo uma pesquisa preliminar para encontrar habilidades que correspondam livremente e, em seguida, alimentando essas habilidades recuperadas de volta no LLM como dicas. Isso permite que o LLM reescreva sua decomposição para que a granularidade e o vocabulário se alinhem perfeitamente com as ferramentas reais existentes.

SkillWeaver em ação

Para avaliar o desempenho do SkillWeaver em cenários empresariais realistas, os pesquisadores criaram um benchmark personalizado chamado CompSkillBench. Consiste em 300 consultas em várias etapas com diferentes níveis de dificuldade. Para espelhar ambientes do mundo actual, eles usaram uma biblioteca de 2.209 habilidades do mundo actual provenientes do ecossistema MCP público, abrangendo 24 categorias funcionais, como infraestrutura em nuvem, finanças e bancos de dados.

Para o mecanismo principal, os pesquisadores usaram principalmente um modelo leve de 7 bilhões de parâmetros (Qwen2.5-7B-Instruct) para decomposição de tarefas, emparelhado com um recuperador de pesquisa semântica padrão (MiniLM com um índice FAISS) para encontrar as ferramentas. SkillWeaver foi avaliado em relação a três configurações principais: um método de força bruta “LLM-Direct” onde eles colocaram todos os nomes de ferramentas no immediate de um modelo grande, uma decomposição baseada em LLM vanilla sem SAD e um loop de agente no estilo ReAct.

Os experimentos indicam que a decomposição de tarefas é o principal gargalo. O comportamento padrão do LLM fica aquém ao lidar com grandes bibliotecas de ferramentas, mas o ciclo de suggestions do SAD transfer o ponteiro dramaticamente. Na configuração vanilla, o modelo 7B alcançou uma precisão de decomposição (ou seja, prevendo o número correto de etapas) apenas 51,0% das vezes. Ao ativar o ciclo de suggestions SAD, a precisão saltou para 67,7% (com o modelo Qwen-Max maior, a precisão atingiu 92%). Em tarefas “difíceis” que exigem de quatro a cinco habilidades distintas, o SAD melhorou a precisão em 50%.

Resultados do SkillWeaver

Em comparação com a abordagem ingênua, o SkillWeaver reduz o consumo de tokens em mais de 99% (fonte: arXiv)

Uma descoberta fascinante foi que modelos maiores podem, na verdade, ter um desempenho pior quando não guiados. Quando testado na configuração vanilla, um modelo maior de 14 bilhões de parâmetros viu sua precisão cair abaixo da precisão do modelo 7B porque tendia a decompor excessivamente as tarefas em etapas microscópicas e desnecessárias. Depois que o SAD foi introduzido, as dicas de ferramentas recuperadas ancoraram o modelo de volta à realidade e aumentaram sua precisão. Isto sugere que alinhar um agente com o vocabulário de ferramentas específicas é muitas vezes mais impactante do que pagar por um LLM maior e mais caro.

Outra lição importante é a economia de tokens. A linha de base do LLM-Direct, que usou o modelo Qwen-Max muito grande, mostrou que a alimentação de todas as ferramentas no immediate de um modelo grande falha. Apesar dos recursos quase perfeitos de divisão de tarefas, o modelo massivo só recuperou a categoria de ferramenta certa 21,1% das vezes quando inundado com opções de ferramentas. A abordagem direcionada de recuperação e roteamento do SkillWeaver superou amplamente isso em precisão, ao mesmo tempo em que reduziu o consumo da janela de contexto de cerca de 884.000 tokens para aproximadamente 1.160 tokens por consulta, uma redução de 99,9%. Para os profissionais, isso se traduz diretamente em custos de API drasticamente mais baixos e tempos de resposta mais rápidos.

Finalmente, a linha de base tradicional do ReAct falhou completamente, alcançando 0% de precisão de decomposição. Seu ciclo naturalmente transforma planos de várias etapas em ações isoladas, em vez de mapear explicitamente uma sequência coesa e com várias ferramentas.

Considerações para desenvolvedores

Embora os pesquisadores ainda não tenham divulgado o código-fonte do SkillWeaver, seu trabalho foi construído com base em ferramentas prontas para uso que podem ser facilmente reproduzidas.

A Decomposição Consciente de Habilidades (SAD), que é a principal inovação no centro da estrutura, é um ciclo inteligente de engenharia imediata e recuperação. Os autores compartilharam os modelos de immediate em seu artigo, e os desenvolvedores podem implementá-los facilmente usando bibliotecas de orquestração padrão como LangChain, LlamaIndex ou até mesmo scripts Python brutos.

Quanto ao componente de recuperação, os autores construíram a estrutura central usando tudo-MiniLM-L6-v2um modelo de incorporação de código aberto. Eles descobriram que a troca por um codificador disponível no mercado um pouco mais forte (BGE-base-pt-v1.5) aumentou imediatamente a precisão sem qualquer ajuste fino. Embora um bi-codificador pronto para uso seja ótimo para colocar uma ferramenta relevante entre os 10 principais candidatos quase 70% das vezes, ele se esforça para classificar consistentemente a ferramenta perfeita exatamente em primeiro lugar, conseguindo isso apenas em cerca de 37% das vezes. Para preencher essa lacuna, as equipes provavelmente precisarão implementar um codificador cruzado secundário ou um reclassificador baseado em LLM para reordenar os 10 principais candidatos.

Um requisito de preparação inicial é vetorizar a biblioteca de ferramentas e construir um índice FAISS antecipadamente. Na prática, este é um obstáculo insignificante. Incorporar e indexar todas as 2.209 habilidades no benchmark levou apenas 15 segundos. Depois de construída, a recuperação de ferramentas do índice adiciona menos de 15 milissegundos de latência por consulta. Para ambientes corporativos, sincronizar o índice da ferramenta é uma tarefa trivial em segundo plano.

Uma limitação atual do SkillWeaver é a falta de recuperação de erros. Embora o SkillWeaver mapeie com sucesso um DAG compatível para execução, o estudo piloto dos autores revelou os desafios das cadeias de ferramentas de várias etapas. Por exemplo, se uma chamada de API falhar na etapa dois, toda a cadeia será interrompida. A principal contribuição do artigo limita-se à fase de roteamento e planejamento. Para uma verdadeira implantação de produção, os profissionais devem criar seus próprios mecanismos de recuperação de erros, fallback e novas tentativas no estágio de composição para lidar com tempos limite de API do mundo actual ou saídas malformadas.

fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui