Início Tecnologia Os pesquisadores treinaram um agente de pesquisa de IA de código aberto,...

Os pesquisadores treinaram um agente de pesquisa de IA de código aberto, Harness-1, que supera o GPT-5.4 na recuperação de informações relevantes

21
0

Uma colaboração de pesquisa conjunta entre pesquisadores da Universidade de Illinois em Urbana-Champaign (UIUC), UC Berkeley, e a plataforma de banco de dados vetorial nativa de IA de código aberto Chroma revelou Harness-1um agente de pesquisa de código aberto de 20 bilhões de parâmetros construído sobre o modelo de código aberto gpt-oss-20B da OpenAI que redesenha fundamentalmente como a IA executa tarefas complexas de recuperação.

Harness-1 alcança um grande salto em desempenho, com pontuação média de 73% em sua capacidade de lembrar informações relevantes corretamente a partir de um conjunto de dados selecionado, superando até mesmo GPT-5.4 (70,9%) e o próximo e mais preciso agente de pesquisa de código aberto, Tongyi DeepResearch 30B, em 11,4 pontos percentuais. (Embora o GPT-5.5 também esteja disponível há mais de um mês, os pesquisadores não testaram esse modelo porque ele não estava disponível quando eles estavam construindo o seu.)

Desempenho de referência de precisão do Harness-1 em comparação com outros agentes e modelos líderes de pesquisa de IA. Crédito: Universidade de Illinois em Urbana-Champaign, UC Berkeley, Chroma

Crucialmente para os desenvolvedores o modelo e seu ambiente estão disponíveis imediatamente sob a licença altamente permissiva Apache 2.0 e código/pesos do modelo no Hugging Face.

Harness-1 também serve como prova de eficácia de outro esforço, Tinker, o treinamento de modelo de IA distribuído e baseado na net e API de ajuste fino desenvolvida pela Considering Machines. O Tinker foi usado especificamente para treinar e executar inferências para o Harness-1, destacando como a infraestrutura interativa está capacitando ativamente a próxima geração de modelos autônomos.

Então, como os pesquisadores fizeram isso?

Benchmarks decodificados (e por que o Harness-1 pode ajudar tremendamente as empresas)

Para realmente testar esses modelos, os pesquisadores avaliaram o Harness-1 e seus concorrentes em oito benchmarks de pesquisa altamente complexos. Em vez de fazer perguntas simples e triviais, esses testes exigiam que a IA agisse como um verdadeiro pesquisador, vasculhando fontes de dados diversas e densas.

Os benchmarks abrangeram vários domínios diferentes, incluindo pesquisas abertas na net, registros financeiros complexos da SEC, bancos de dados técnicos de patentes do USPTO e tarefas de resposta a perguntas “multi-hop”, nas quais a IA teve que reunir logicamente pistas dispersas de vários documentos diferentes para chegar à resposta correta.

Quando os resultados chegaram, o Harness-1 dominou a competição de código aberto em sua capacidade de encontrar e selecionar com sucesso os fatos certos. Ainda mais impressionante é que esse modelo relativamente pequeno de 20 bilhões de parâmetros enfrentou sistemas de IA proprietários enormes e caros. Na verdade, ele superou pesos pesados ​​como GPT-5.4, Sonnet-4.6 e Kimi-K2.5 – considerados centenas de bilhões ou trilhões de parâmetros. Apenas um modelo gigante de fronteira – Opus-4.6 – conseguiu superar por pouco o desempenho médio geral.

O Harness-1 obtém seus ganhos de desempenho descarregando a exaustiva “contabilidade” de uma sessão de pesquisa da memória de trabalho do modelo para um ambiente de software program estruturado.

À medida que os casos de utilização empresarial se tornam mais sofisticados, exigindo que os modelos analisem de forma autónoma milhares de documentos corporativos ou registos financeiros, estes sistemas sucumbem frequentemente à “amnésia de pesquisa” – esquecendo as suas consultas originais, repetindo documentos rejeitados ou perdendo o controlo das afirmações específicas que estão a tentar verificar.

Até agora, a solução predominante para esta amnésia tem sido a força bruta. Os engenheiros normalmente forçam os modelos a reler constantemente uma transcrição sempre em expansão de suas próprias ações, apenas com acréscimos, empilhando cada pesquisa, leitura e pensamento em uma enorme janela de contexto.

Harness-1 introduz uma mudança de paradigma neste método, provando que o gargalo para a verdadeira autonomia synthetic não é necessariamente o tamanho do modelo, mas a eficiência com que seu ambiente de trabalho gerencia o estado. Ele destaca mais uma vez, como também fez o Código Claude da Anthropic, que o modelo bruto é indiscutivelmente menos importante do que o arnês – ou conjunto de condições – através do qual ele funciona.

Tecnologia: cuidando da papelada no meio ambiente

Para compreender o salto técnico do Harness-1, considere uma analogia do mundo actual.

Think about contratar um assistente de pesquisa brilhante e colocá-lo em uma sala vazia, sem mesa, blocos de notas ou arquivos. Você pede que eles escrevam um relatório abrangente sobre um tópico altamente complexo, que exige que leiam dezenas de livros, mantendo cada citação, citação e pesquisa sem saída perfeitamente memorizada em sua própria cabeça. Eventualmente, não importa o quão inteligente o assistente seja, sua carga cognitiva será máxima e eles começarão a abandonar os fatos ou a perder o fio da tarefa.

É exatamente assim que os agentes de busca tradicionais operam hoje. Eles são treinados como políticas sobre transcrições crescentes, o que significa que o modelo pesquisa, lê, pesquisa novamente e anexa tudo em sua própria janela de contexto.

Como pesquisador principal Patrick (Pengcheng) Jiang, da Universidade de Illinois, anotado em X: “Em algum momento, o modelo não está mais apenas ‘pesquisando’. Ele também está sendo solicitado a ser um sistema de memória, um anotador, um verificador e um bibliotecário.”

O Harness-1 resolve isso dando à IA uma mesa e um arquivo – o que a equipe de pesquisa chama de “arnês de externalização de estado”.

Esse equipamento é um ambiente ativo e envolvente que assume a contabilidade de rotina, mantendo uma memória de trabalho recuperável que inclui um conjunto de documentos candidatos, um conjunto de evidências com curadoria marcada por importância, hyperlinks de evidências compactas e registros de verificação.

Ao separar as escolhas semânticas da gestão do estado estrutural, a IA fica livre para fazer o que faz melhor.

A política ainda resolve o que pesquisar, determina quais documentos manter e sabe quando parar, enquanto o ambiente simplesmente detém o estado.

Aqui está uma subseção que detalha a metodologia de treinamento e como ela difere dos modelos anteriores de busca de agentes:

Coaching Harness-1: Uma Masterclass em Eficiência de Dados

O pipeline de treinamento para o Harness-1 representa uma mudança elementary na forma como a indústria de IA aborda o aprendizado agente.

Historicamente, os desenvolvedores têm tratado os agentes de pesquisa como políticas que operam sobre transcrições massivas e cada vez maiores, forçando algoritmos de aprendizagem por reforço (RL) a otimizar simultaneamente o raciocínio semântico e a memorização bruta de um estado de pesquisa.

Os criadores do Harness-1 adotaram uma abordagem radicalmente diferente: como seu “harness” personalizado cuida de toda a contabilidade de rotina – como manter hyperlinks de evidências, conjuntos de candidatos e registros de verificação – o processo de treinamento só precisava ensinar ao modelo como operar essa interface estruturada.

Esta divisão de trabalho simplificou drasticamente o que o modelo subjacente de 20 mil milhões de parâmetros realmente precisava de aprender.

O processo começou com um estágio de ajuste fino supervisionado (SFT) extremamente estreito. Em vez de extrair petabytes de novos dados comportamentais, a equipe gerou apenas 899 trajetórias filtradas usando um agente de professor GPT-5.4 que foi conectado exatamente ao mesmo ambiente de equipamento que o modelo do aluno eventualmente usaria.

O objetivo desta fase do SFT não period injetar grandes quantidades de conhecimento de domínio no modelo, mas simplesmente ensinar-lhe os ritmos mecânicos de um bom pesquisador: como formatar chamadas de ferramentas, como etiquetar documentos por importância e a disciplina de verificar uma afirmação antes de promovê-la para o conjunto last de curadoria.

Após o SFT, o modelo passou por Reinforcement Studying (RL) usando um algoritmo chamado CISPO, aplicado em episódios de pesquisa completos com limite de 40 voltas.

A equipe projetou uma função de recompensa terminal altamente específica que separou explicitamente descoberta de seleção. O modelo foi recompensado não apenas por encontrar um documento relevante, mas por promovê-lo com sucesso no conjunto de respostas last, sendo penalizado se encontrasse a resposta, mas não conseguisse curá-la.

Os pesquisadores também instituíram um bônus de “diversidade de ferramentas”; sem este incentivo específico, descobriram que a política desmoronaria rapidamente numa estratégia preguiçosa e com muitas pesquisas, onde enviava spam para consultas, mas contornava o trabalho mais árduo de leitura e verificação do texto.

O que torna o Harness-1 verdadeiramente inovador em comparação com trabalhos anteriores é a sua eficiência de dados sem precedentes. Todo o modelo foi treinado em cerca de 4.400 itens únicos – 899 trajetórias SFT e 3.453 consultas RL.

Em complete contraste, os modelos concorrentes de código aberto exigiam conjuntos de dados muito maiores para obter resultados piores: o Context-1 utilizou mais de 17.200 itens de treinamento, enquanto o Search-R1 contou com impressionantes 221.300 itens para aprender comportamentos de pesquisa.

Ao provar que uma arquitetura cognitiva externa mais inteligente pode substituir o dimensionamento de dados de força bruta, Harness-1 sugere que o futuro da IA ​​de agência reside na construção de ambientes melhores para os modelos funcionarem, em vez de apenas treinar modelos maiores com mais dados.

Produto: Aplicabilidade e Generalização Empresarial

Do ponto de vista do produto, o Harness-1 é entregue como um agente 20B altamente capaz integrado ao openai/gpt-oss-20b arquitetura básica.

Para pilhas de tecnologia empresarial, a aplicabilidade é enorme porque as empresas precisam de IA para executar pesquisas em várias etapas em bancos de dados proprietários, sem ter alucinações ou gerar contas de computação exorbitantes.

O Harness-1 gerencia seu desempenho de nível de fronteira com o que os criadores descrevem como “custo e latência de nível de contexto 1”. Como a janela de contexto é estritamente gerenciada pelo equipamento consciente do orçamento, em vez de se expandir continuamente, as empresas podem implantar esse agente de forma autônoma, sem incorrer nos custos exponenciais de tokens normalmente associados a tarefas de IA de longo horizonte.

Ainda mais impressionante é que o Harness-1 prova que pode generalizar muito além dos seus dados de treinamento. De acordo com a equipe de pesquisa, period incrivelmente barato treinar, utilizando apenas 899 trajetórias filtradas de ajuste fino supervisionado (SFT) e apenas 3.453 consultas de aprendizagem por reforço (RL).

“Em vez de treinar o modelo para sobreviver a uma transcrição gigante apenas com anexos, nós o treinamos para usar uma interface de pesquisa estruturada: pesquisar, selecionar, revisitar, verificar e enviar”, explicou Jiang.

Esta flexibilidade revela-se um ponto crítico para a indústria da IA: os programadores não precisam necessariamente de petabytes de novos dados comportamentais se construírem uma estrutura cognitiva melhor para o modelo funcionar.

Licenciamento: O poder do Apache 2.0

Um dos aspectos mais significativos do lançamento do Harness-1 é o seu licenciamento. Em linguagem simples, o Apache 2.0 é uma licença de software program altamente permissiva e amigável para empresas que permite fundamentalmente a comercialização.

Ao contrário das licenças “copyleft” (como a GPL), que podem forçar as empresas a abrir o código-fonte de seu próprio software program proprietário se integrarem o código, ou das licenças “somente para pesquisa” que proíbem totalmente o uso comercial, o Apache 2.0 dá às empresas luz verde para construir, modificar e monetizar livremente a tecnologia.

Para desenvolvedores e startups, isso significa que o Harness-1 pode ser perfeitamente integrado a produtos comerciais de pesquisa empresarial, ferramentas internas de recuperação de dados ou aplicativos de IA voltados para o cliente, sem medo de represálias legais.

O único requisito importante é que os usuários incluam o aviso de direitos autorais unique e declarem explicitamente quaisquer modificações significativas que fizerem no código-fonte, posicionando o Harness-1 como um alicerce altamente viável para a empresa.

Reações da comunidade: uma validação retumbante

O anúncio claramente tocou a comunidade de desenvolvedores, validando os problemas reais que os engenheiros enfrentam ao construir sistemas de agente. O tópico de anúncio de várias partes de Jiang no X rapidamente ganhou grande força, obtendo mais de 256,1 mil visualizações, 3,7 mil curtidas, 2,9 mil marcadores e quase 300 republicações em questão de dias.

Esse alto envolvimento ressalta um consenso crescente no espaço da IA ​​de que a força bruta nas janelas de contexto é uma batalha perdida.

Quando Jiang postou no X, “Tenho me perguntado: talvez os agentes de busca sejam ruins em buscas, em parte porque os obrigamos a cuidar de toda a papelada de cabeça”, a ressonância foi imediata.

Para desenvolvedores que passaram o último ano lutando com agentes de IA que esquecem com segurança suas instruções primárias no meio de uma pesquisa no banco de dados, a abordagem Harness-1 parece uma correção de curso desesperadamente necessária.

Em última análise, o sentimento da comunidade destaca uma mudança nas prioridades da indústria. Os desenvolvedores estão deixando de perguntar quão grande pode ser a janela de contexto de um modelo de IA e, em vez disso, perguntando com que eficiência o ambiente de um modelo de IA pode gerenciar esse contexto para ele. Ao descarregar a papelada, o Harness-1 está provando que sistemas menores e mais inteligentes podem superar os gigantes – desde que tenham a mesa certa para trabalhar.

fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui