Treinar um LLM básico do zero custa milhões e requer dados em escala de Web – e é por isso que a maioria das empresas não se preocupa. Sapient acha que tem um caminho mais barato.
Para superar esse dogma de escala de força bruta, os pesquisadores da Sapient desenvolveram Texto HRMque substitui os Transformers padrão por um Modelo Recorrente Hierárquico (HRM) altamente eficiente em termos de amostragem, uma arquitetura que eles introduziram pela primeira vez no ano passado.
A gestão de recursos humanos separa a computação em camadas estratégicas de evolução lenta e camadas de execução de evolução rápida. Em vez de previsão autorregressiva de força bruta em texto bruto, o HRM-Textual content treina exclusivamente em pares instrução-resposta. Isso se aproxima das configurações empresariais do mundo actual, onde os usuários geralmente esperam uma resposta direcionada para uma tarefa específica.
Os pesquisadores conseguiram treinar um HRM-Textual content de parâmetro 1B do zero por uma fração do custo e dos tokens de LLMs normais. Seu modelo alcançou desempenho competitivo com modelos abertos muito maiores nos principais benchmarks do setor.
Para aplicações de IA do mundo actual, isso significa que o pré-treinamento básico não está mais restrito a instituições com muitos recursos. Com o HRM-Textual content, as organizações podem pré-treinar de forma acessível seus próprios modelos de raciocínio altamente capazes a partir do zero e combiná-los com armazenamentos de conhecimento externos.
O gargalo do treinamento
Quando treinamos um LLM, na verdade não nos importamos se ele memorizou a sequência exata de palavras em um tópico aleatório do Reddit de 2014. O que queremos é que o modelo desenvolva uma compreensão profunda e subjacente da linguagem humana, da lógica, dos fatos e do raciocínio.
A abordagem atual é a força bruta: raspar a Web, executar a previsão do próximo token trilhões de vezes e assumir que o modelo desenvolveu um modelo interno funcional do mundo.
Basicamente, isso significa que desperdiçamos milhões de dólares em poder computacional forçando os modelos a memorizar tudo o que coletamos da web, apenas para que possam aprender indiretamente como pensar. Por exemplo, os modelos padrão apenas de decodificador gastam uma perda valiosa de atribuição de cálculo para reconstruir o immediate em si, mesmo que o immediate do usuário já seja conhecido e fornecido no momento da inferência.
Em vez de simplesmente ver isto como um obstáculo computacional, a indústria deve reconhecê-lo como uma grave limitação empresarial. Em comentários fornecidos à VentureBeat, Guan Wang, CEO da Sapient Intelligence, enquadrou isso como uma questão de “economia da iteração”.
“As empresas enfrentam hoje três problemas agravados: a formação é cara, a infra-estrutura é pesada e os ciclos de experimentação são demasiado lentos”, disse Wang. “O vício de escalabilidade da indústria diz: ‘Quando o modelo falhar, torne-o maior. Adicione mais dados. Adicione mais GPUs.’ Isso funcionou, mas está chegando a um ponto de retornos decrescentes. Mais escala geralmente significa mais memorização, mais latência, mais infraestrutura e mais dependência de fornecedor. Isso não dá necessariamente à empresa um mecanismo de raciocínio melhor.”
Essa ineficiência arquitetônica e computacional é exatamente a razão pela qual o ajuste fino dos transformadores densos existentes nem sempre é a solução mágica para as empresas. O ajuste fino para preservar as capacidades gerais de um modelo muitas vezes requer a mistura de dados substanciais de uso geral no processo, tornando-o computacionalmente pesado e difícil de controlar.
“Think about um fundo de hedge, uma seguradora ou um banco que possui dados altamente proprietários: notas de pesquisa interna, lógica de transação, regras de conformidade, memorandos de analistas, modelos de risco, restrições de portfólio”, disse Wang. “Eles podem não querer enviar esses dados para um modelo de fronteira externo e podem não precisar de um modelo gigante de uso geral que memorize a Web. O que eles precisam é de um núcleo de raciocínio compacto que possa aprender sua estrutura de tarefas, raciocinar através de regras e números e funcionar em um ambiente controlado.”
Como o HRM-Textual content concentra sua computação estritamente na conclusão de tarefas e no raciocínio latente, ele permite que as empresas comecem com um modelo menor e mais inteligente e o adaptem a um domínio proprietário com muito menos infraestrutura.
Repensando arquiteturas com HRM-Textual content
O HRM, que foi introduzido em 2025, representa um afastamento basic dos modelos tradicionais do Transformer. Para construir um mecanismo mais eficiente em amostras, o HRM separa a computação em camadas estratégicas de evolução lenta e camadas de execução de evolução rápida. O módulo L rápido realiza refinamento iterativo native, enquanto o módulo H lento mantém o contexto semântico estável entre os ciclos. O processamento consiste em dois ciclos de alto nível, onde cada ciclo executa três atualizações rápidas do módulo L seguidas por uma única atualização lenta do módulo H.
Arquiteturas recorrentes padrão com parâmetros compartilhados (como o TRM da Samsung) às vezes podem lidar com pequenos quebra-cabeças lógicos, mas os pesquisadores da Sapient descobriram que elas se tornam altamente instáveis quando dimensionadas para 1 bilhão de parâmetros para tarefas de linguagem. A separação entre o módulo H lento e o módulo L rápido do HRM é matematicamente necessária, e não apenas uma escolha estética. Como disse Wang: “Para grades lógicas, às vezes você pode usar um pequeno mecanismo recursivo porque o mundo é limpo e limitado. A linguagem não é assim. A linguagem precisa tanto de refinamento native rápido quanto de estabilidade semântica lenta.”
Embora o HRM authentic tenha se mostrado altamente eficaz para problemas de raciocínio simbólico e controlado, os pesquisadores se depararam com um obstáculo ao aplicá-lo às complexidades enormes e abertas da modelagem de linguagem generalizada. Embora os ciclos do HRM o tornem um pensador incrivelmente eficiente, esses mesmos ciclos tornam-no matematicamente volátil para treinar no caos diversificado da linguagem humana. A execução de loops recorrentes na linguagem cria uma enorme instabilidade matemática, especificamente, gradientes explodindo ou desaparecendo.
Para evitar esse ciclo de suggestions na rede neural, os pesquisadores introduziram duas inovações arquitetônicas importantes no HRM-Textual content. Primeiro, eles desenvolveram o MagicNorm, uma técnica de normalização especializada projetada especificamente para manter os sinais internos estáveis, não importa quantas vezes o modelo faça loops em seu processo de pensamento.
Segundo, eles desenvolveram um método de aquecimento para estabilizar o treinamento. Durante o treinamento inicial, o modelo é avaliado apenas em ciclos de raciocínio curtos e superficiais. À medida que o treinamento avança, o sistema aquece, dando gradualmente ao modelo sequências de raciocínio mais profundas e mais longas.
Eles também mudaram o objetivo de treinamento da previsão do próximo token para a conclusão da tarefa, onde o modelo é recompensado apenas pela resposta completa, em oposição aos tokens individuais que ele gera. Para atingir esse objetivo, eles alteraram os dados de treinamento do HRM-Textual content de texto bruto para apenas pares instrução-resposta.
HRM-Texto em ação
Os pesquisadores construíram um modelo HRM-Textual content altamente compacto de 1 bilhão de parâmetros. Em vez de usar o pipeline padrão de vários estágios que exige a agitação de trilhões de palavras de texto bruto da Web, eles o treinaram do zero em um conjunto de dados rigorosamente selecionado de apenas 40 bilhões de tokens. Os dados de treinamento consistiam inteiramente em pares instrução-resposta através de instruções gerais, matemática, lógica simbólica, exercícios de livros didáticos e conhecimento reescrito.
Eles treinaram o modelo usando o objetivo de conclusão de tarefa. Para forçar o modelo a confiar em sua arquitetura hierárquica interna, em vez de copiar a lógica passo a passo, eles retiraram explicitamente os tokens de “pensamento” dos dados de treinamento.
O modelo foi avaliado em um conjunto diversificado de benchmarks básicos de IA, fortemente indexados em conhecimento, raciocínio, lógica, matemática e compreensão. Os pesquisadores testaram o HRM-Textual content tanto em modelos pequenos quanto em modelos abertos e totalmente abertos com muitos recursos.
Os resultados mostram uma mudança significativa na fronteira entre computação e desempenho. O HRM-Textual content de parâmetro 1B alcançou 60,7% em MMLU, 84,5% em GSM8K e 56,2% em MATH. Este desempenho é altamente competitivo (e em vários casos supera) os modelos de base de parâmetros de 2B a 7B contra os quais foi testado.
A conclusão mais importante para o público empresarial reside nas estatísticas de eficiência e nas implicações práticas. Pré-treinar um modelo básico do zero é normalmente um empreendimento multimilionário reservado para gigantes da tecnologia. O HRM-Textual content foi treinado em apenas 1,9 dias em um cluster de 16 GPUs. O custo whole estimado de computação foi de aproximadamente US$ 1.500. Ele alcançou pontuações competitivas usando 100 a 900 vezes menos tokens de treinamento e 96 a 432 vezes menos computação estimada do que modelos como Qwen, Gemma e Llama.
Outro ponto importante é a dissociação do raciocínio da memorização do conhecimento. Do ponto de vista prático, o sucesso do HRM-Textual content em tarefas de raciocínio pesado, apesar de sua pequena dieta de treinamento de 40 bilhões de tokens, prova que um modelo não precisa memorizar toda a Web para se tornar um mecanismo de raciocínio inteligente.
Para aplicativos empresariais, esse comportamento é um recurso, não um bug. Os pesquisadores sugerem um futuro onde as empresas implantarão modelos recorrentes altamente compactos e incrivelmente baratos que atuam como o “núcleo de raciocínio” especializado para a lógica de negócios. Em vez de forçar o modelo a memorizar os bancos de dados da empresa durante o pré-treinamento, o modelo atua como um mecanismo de raciocínio, contando com sistemas de recuperação externos para buscar conhecimento factual.
Os críticos apontaram que o treinamento em pares instrução-resposta torna as comparações com modelos treinados em texto bruto um cenário “maçãs com laranjas”. Wang recua nesse enquadramento, apontando que todo LLM moderno e sério vê dados de resposta à instrução durante o treinamento ou alinhamento. “Portanto, a comparação não é de maçãs com laranjas. Está mais próxima de núcleos de maçãs e maçãs. Começamos diretamente do formato da tarefa principal porque é assim que as pessoas realmente usam modelos: elas dão uma instrução e esperam uma resposta útil”, disse ele.
Os pesquisadores também realizaram testes rigorosos de contaminação para garantir que o modelo não estivesse simplesmente memorizando respostas de referência. No DROP, o único benchmark que mostra um sinal de contaminação marginal sob uma configuração específica, o HRM-Textual content ainda obteve impressionantes 81,1% em um subconjunto estritamente limpo e com 0% de contaminação.
Em última análise, Wang argumenta que, para as empresas, “a avaliação correta não é a recordação de trivialidades. É uma avaliação do fluxo de trabalho… Dê ao HRM-Textual content uma tarefa como: raciocínio financeiro em várias etapas, lógica de conformidade, automação do fluxo de trabalho científico, extração estruturada seguida de raciocínio”.
Implementação prática e o futuro da IA empresarial
Embora as pontuações de benchmark e a eficiência de custos sejam impressionantes, a Sapient é clara quanto aos limites atuais do modelo. A versão inicial é melhor vista como uma prova de conceito, semelhante às primeiras versões GPT, projetada para mostrar as vantagens exclusivas da arquitetura.
“Honestamente, o HRM-Textual content ainda não é um substituto plug-and-play do ChatGPT”, disse Wang. “É um modelo compacto de raciocínio em linguagem básica. Para uma equipe de engenharia empresarial, o trabalho operacional gira principalmente em torno de modelos, seleção de modo, mascaramento de atenção e alinhamento.”
Para equipes de engenharia de IA que desejam experimentar, começar requer alguma disciplina específica, mas padrão, de geração de texto. O modelo lista suporte nativo na biblioteca Transformers (exigindo transformadores >= 5.9.0), e caminhos de uso para vLLM e SGLang estão sendo desenvolvidos ativamente. A principal tarefa de engenharia envolve o gerenciamento do design do PrefixLM: aplicativos de bate-papo multiturno de produção exigirão uma lógica de cache KV cuidadosa para garantir que os prompts do usuário recebam atenção bidirecional whole enquanto as saídas do assistente permanecem causais.
“Quando o custo de treinar um modelo de raciocínio capaz cai para cerca de US$ 1.500, a IA deixa de ser apenas uma questão de infraestrutura e se torna uma questão de estratégia”, disse Wang. “Uma empresa Fortune 500 não precisa mais perguntar: ‘Podemos arcar com um modelo de base?’ Ele perguntaria: ‘O que nosso modelo deve saber sobre nosso negócio e para que tipo de raciocínio ele deve ser otimizado?'”













