Início Tecnologia Os modelos Frontier AI não apenas excluem o conteúdo do documento –...

Os modelos Frontier AI não apenas excluem o conteúdo do documento – eles o reescrevem e os erros são quase impossíveis de detectar

14
0

À medida que grandes modelos de linguagem se tornam mais capazes, os usuários ficam tentados a delegar tarefas de conhecimento onde os modelos processam documentos em seu nome e fornecem os resultados finais. Mas até que ponto você pode confiar que o modelo permanecerá fiel ao conteúdo dos seus documentos quando for necessário iterá-los em várias rodadas?

UM novo estudo por pesquisadores da Microsoft mostra que grandes modelos de linguagem corrompem silenciosamente os documentos em que trabalham, introduzindo erros. Os pesquisadores desenvolveram um benchmark que simula fluxos de trabalho autônomos de várias etapas em 52 domínios profissionais, usando um método que mede automaticamente a degradação do conteúdo ao longo do tempo.

Suas descobertas mostram que mesmo os modelos de fronteira de nível superior corrompem uma média de 25% do conteúdo dos documentos ao last desses fluxos de trabalho. E fornecer aos modelos ferramentas de agente ou documentos distratores realistas, na verdade, piora seu desempenho.

Isto serve como um aviso de que, embora haja uma pressão crescente para automatizar o trabalho do conhecimento, os modelos linguísticos atuais não são totalmente fiáveis ​​para estas tarefas.

A mecânica do trabalho delegado

O estudo da Microsoft concentra-se no “trabalho delegado”, um paradigma emergente em que os usuários permitem que os LLMs concluam tarefas de conhecimento em seu nome, analisando e modificando documentos.

Um exemplo proeminente desse paradigma é a codificação por vibração, em que um usuário delega o desenvolvimento de software program e a edição de código a uma IA. Mas os fluxos de trabalho delegados vão muito além da programação para outros domínios. Na contabilidade, por exemplo, um usuário pode fornecer um razão denso e instruir o modelo a dividir o documento em arquivos separados organizados por categorias de despesas específicas.

Como os usuários podem não ter tempo ou conhecimento especializado para revisar manualmente cada modificação implementada pela IA, a delegação geralmente depende da confiança. Os usuários esperam que o modelo conclua as tarefas fielmente, sem introduzir erros não verificados, exclusões não autorizadas ou alucinações nos documentos.

Para medir até que ponto os sistemas de IA podem ser confiáveis ​​em fluxos de trabalho delegados iterativos e estendidos, os pesquisadores desenvolveram o Referência DELEGADO-52. O benchmark é composto por 310 ambientes de trabalho abrangendo 52 domínios profissionais diversos, incluindo contabilidade financeira, engenharia de software program, cristalografia e notação musical.

Exemplo de tarefa DELEGATE-52 (fonte: arXiv)

Cada ambiente de trabalho depende de documentos de texto iniciais do mundo actual que variam de 2.000 a 5.000 tokens. Juntamente com o documento inicial, os ambientes incluem de cinco a dez tarefas de edição complexas e não triviais.

A classificação de um processo de edição complexo e de várias etapas geralmente requer uma revisão humana cara. O DELEGATE-52 contorna isso usando um método de simulação de “retransmissão de ida e volta” que avalia as respostas sem exigir soluções de referência anotadas por humanos. A abordagem é inspirada na técnica de retrotradução usada na avaliação de tradução automática, onde um modelo de IA é instruído a traduzir um documento de um idioma para outro e vice-versa para ver se ele reproduz perfeitamente a versão unique.

Conseqüentemente, cada tarefa de edição no DELEGATE-52 é projetada para ser totalmente reversível, emparelhando uma instrução direta com sua inversa precisa. Por exemplo, uma instrução para dividir o razão em arquivos separados por categoria de despesa é combinada com uma instrução para mesclar todos os arquivos de categoria novamente em um único razão.

Em comentários fornecidos ao VentureBeat, Philippe Laban, pesquisador sênior da Microsoft Analysis e coautor do artigo, esclareceu que este não é simplesmente um teste para saber se uma IA pode clicar em “desfazer”. Como os trabalhadores humanos não podem ser forçados a “esquecer” instantaneamente uma tarefa que acabaram de realizar, esta avaliação de ida e volta é especialmente adequada para IA. Ao iniciar uma nova sessão de conversação, os pesquisadores forçam o modelo a tentar a tarefa inversa de forma totalmente independente.

Os modelos em seus experimentos “não sabem se uma tarefa é um passo para frente ou para trás e não têm conhecimento do projeto geral do experimento”, explicou Laban. “Eles estão simplesmente tentando cada tarefa da maneira mais completa possível em cada etapa.”

Relé de ida e volta DELEGATE-52

Exemplo de tarefa de retransmissão de ida e volta (fonte: arXiv)

Essas tarefas de ida e volta são encadeadas em uma retransmissão contínua para simular fluxos de trabalho de longo horizonte, abrangendo 20 interações consecutivas. Para tornar o ambiente mais realista, o benchmark introduz arquivos distratores no contexto de cada tarefa. Eles contêm de 8.000 a 12.000 tokens de documentos relacionados com tópicos, mas completamente irrelevantes. Os distratores medem se a IA consegue manter o foco ou se fica confusa e extrai dados errados.

Testando modelos de fronteira no relé

Para entender como diferentes arquiteturas e escalas lidam com o trabalho delegado, os pesquisadores testaram 19 modelos de linguagem diferentes da OpenAI, Anthropic, Google, Mistral, xAI e Moonshot. O experimento principal submeteu esses modelos a uma simulação de 20 interações de edição consecutivas.

Em todos os modelos, os documentos sofreram uma degradação média de 50% ao last da simulação. Mesmo os melhores modelos de fronteira do experimento, especificamente Gemini 3.1 Professional, Claude 4.6 Opus e GPT 5.4, corromperam em média 25% do conteúdo do documento.

Dos 52 domínios profissionais, Python foi o único em que a maioria dos modelos alcançou o standing de pronto com uma pontuação de 98% ou superior. Os modelos se destacam em tarefas programáticas, mas enfrentam dificuldades severas em linguagem pure e domínios de nicho, como ficção, declarações de ganhos ou receitas. O modelo prime geral, Gemini 3.1 Professional, foi considerado pronto para trabalho delegado em apenas 11 dos 52 domínios.

resultados delegado-52

Todos os modelos lutam com tarefas de delegação (fonte: arXiv)

Curiosamente, a corrupção não foi causada pela morte por mil cortes onde os modelos acumulam lentamente pequenos erros. Em vez disso, cerca de 80% da degradação whole é causada por falhas críticas esparsas, mas massivas, que são interações únicas em que um modelo elimina repentinamente pelo menos 10% do conteúdo do documento. Os modelos de fronteira não evitam necessariamente melhor os pequenos erros. Eles simplesmente atrasam essas falhas catastróficas para rodadas posteriores.

Outra observação importante é que quando os modelos mais fracos falham, a sua degradação origina-se principalmente da eliminação de conteúdo. No entanto, quando os modelos de fronteira falham, corrompem ativamente o conteúdo existente. O texto ainda está lá, mas foi sutilmente distorcido ou alucinado, tornando muito mais difícil para um superintendente humano detectar o erro.

Curiosamente, fornecer aos modelos um suporte de agente com ferramentas genéricas para execução de código e acesso de leitura/gravação de arquivos na verdade piorou seu desempenho, adicionando em média 6% mais degradação. Laban explicou que o fracasso reside em confiar em ferramentas genéricas em vez de ferramentas específicas de domínio.

“Os modelos não têm a capacidade de escrever programas eficazes em tempo actual que possam manipular arquivos em diversos domínios sem erros”, observou ele. “Quando não conseguem fazer algo programaticamente, recorrem à leitura e reescrita de arquivos inteiros, o que é menos eficiente e mais sujeito a erros”. A solução para os desenvolvedores é criar ferramentas com escopo restrito (como funções específicas para calcular ou mover entradas em arquivos .ledger) para manter os agentes no caminho certo.

A degradação também aumenta à medida que os documentos ficam maiores ou à medida que mais arquivos distratores são adicionados ao espaço de trabalho. Para equipes empresariais que investem pesadamente em geração aumentada de recuperação (RAG), esses documentos distratores servem como um alerta direto sobre o custo crescente de um contexto confuso. Embora uma janela de contexto barulhenta possa causar uma queda mínima de 1% no desempenho após apenas duas interações, essa degradação aumenta para uma queda massiva de 2 a 8% em uma simulação longa.

“Para a comunidade de recuperação: os pipelines RAG devem ser avaliados em fluxos de trabalho de várias etapas, e não apenas em benchmarks de recuperação de giro único”, disse Laban. “Medições de volta única subestimam sistematicamente o dano da recuperação imprecisa.”

Verificação da realidade para a empresa autônoma

As descobertas do benchmark DELEGATE-52 oferecem uma verificação crítica da realidade para o hype atual em torno de agentes de IA totalmente autônomos.

A concepção do benchmark também implica uma restrição prática: como os modelos podem manter um registo limpo durante vários passos antes de uma falha catastrófica súbita, é necessária uma revisão humana incremental – e não uma única verificação last. Laban recomenda construir aplicações de IA em torno de tarefas curtas e transparentes, em vez de agentes complexos de longo horizonte. Isso mantém a implicação da ação sem que o redator entregue a receita.

Para organizações que desejam implantar agentes autônomos com segurança hoje, a metodologia DELEGATE-52 fornece um modelo prático para testar pipelines de dados internos. Laban explicou que “… uma equipe empresarial que deseja adotar esta estrutura precisa construir três componentes: (a) um conjunto de tarefas de edição reversíveis representativas de seus fluxos de trabalho, (b) um analisador que converte seus documentos de domínio em uma representação estruturada, e (c) uma função de similaridade que compara duas representações analisadas.” As equipes nem precisam construir analisadores do zero. A equipe de pesquisa da Microsoft reaproveitou com êxito as bibliotecas de análise existentes para 30 dos 52 domínios testados.

Laban está otimista quanto à taxa de melhoria. “O progresso é actual e rápido. Olhando apenas para a família GPT, os modelos passam de uma pontuação abaixo de 20% para cerca de 70% em 18 meses”, disse Laban. “Se essa trajetória continuar, os modelos em breve conseguirão atingir pontuações saturadas no DELEGATE-52.”

No entanto, Laban alertou que o DELEGATE-52 é propositadamente pequeno em comparação com ambientes empresariais massivos. Mesmo que os modelos básicos inevitavelmente dominem esse benchmark, a interminável cauda longa de dados e fluxos de trabalho corporativos exclusivos significa que as organizações sempre precisarão investir em ferramentas personalizadas e específicas de domínio para manter a confiabilidade de seus agentes autônomos.

fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui