As janelas de contexto estão se tornando um gargalo computacional. Quanto mais tempo um agente é executado, mais tokens se acumulam a partir de documentos recuperados, rastros de raciocínio e histórico de conversas, e mais memória e computação esse contexto crescente exige. A maioria das soluções existentes degrada a precisão do modelo, exige que todo o contexto seja carregado antes do início da compactação ou produz economias de memória que não se traduzem em acelerações reais na infraestrutura de serviço padrão.
Uma equipe de pesquisa da NYU, Columbia, Princeton, Universidade de Maryland, Harvard e Laboratório Nacional Lawrence Livermore publicou um artigo esta semana que propõe uma nova solução. Os pesquisadores apresentam o conceito de Modelos de Linguagem de Contexto Latente, ou LCLMs, uma família de modelos de compressão codificador-decodificador que comprimem o contexto de entrada antes que ele chegue ao decodificador. Os modelos são de código aberto no HuggingFace.
Ao contrário dos métodos de compactação de cache KV – a abordagem dominante no campo, que ainda materializa o cache KV completo antes de despejar entradas – os LCLMs compactam a sequência de token de entrada antes do pré-preenchimento do decodificador, portanto, taxas de compactação mais altas reduzem diretamente a computação e a memória do lado do decodificador. O artigo relata que LCLMs com compactação de 16x produziram saída 8,8 vezes mais rápida do que as linhas de base do cache KV no benchmark de contexto longo RULER.
“Esses contextos crescentes ocupam memória e computação e estão se tornando um gargalo computacional para LLMs”, disse Micah Goldblum, co-consultor principal do projeto e pesquisador da Universidade de Columbia, ao VentureBeat. “Nosso objetivo period treinar modelos de linguagem de ponta a ponta que pudessem lidar com contextos muito longos com eficiência e precisão. Se você puder criar esse modelo de linguagem, tudo se tornará mais barato e mais rápido.”
O que os LCLMs podem fazer
Os LCLMs permitem que os modelos processem contextos muito mais longos do que seria prático, por uma fração do custo de memória e computação, sem a degradação da precisão que torna a maioria dos métodos de compactação uma compensação ruim na produção.
Com compactação 4x, o artigo relata precisão de 91,76% no benchmark RULER, em comparação com 94,41% sem nenhuma compactação. Isso é menos de 3 pontos para reduzir o contexto a um quarto do seu tamanho authentic. Na compactação 16x, onde 93,75% dos tokens de entrada são removidos, a precisão caiu para 75,06%. Cada método de cache KV testado na mesma taxa de compactação obteve pontuação inferior.
Os ganhos também se mantêm em entradas mais curtas. Em problemas de palavras matemáticas do GSM8K, onde o immediate completo é compactado em vez de apenas documentos recuperados, os LCLMs superaram todos os outros métodos testados, independentemente da taxa de compactação.
Como foi construído
A arquitetura emparelha um codificador de 0,6B com um decodificador de 4B. O codificador compacta blocos de tokens de entrada em sequências mais curtas de incorporações latentes. O decodificador processa aqueles no lugar dos tokens originais. O treinamento abrangeu mais de 350 bilhões de tokens.
A receita de treinamento mistura três tipos de dados:
-
Dados de pré-treinamento contínuos com intervalos compactados e descompactados intercalados
-
Dados supervisionados de ajuste fino cobrindo tarefas de raciocínio e de contexto longo
-
Uma tarefa auxiliar de reconstrução que força o codificador a reter detalhes refinados
A combinação aborda uma compensação que limitava o trabalho de compressão anterior, onde a preservação da precisão da reconstrução acontecia às custas do desempenho geral da tarefa.
Uma pesquisa de arquitetura identificou a configuração perfect. O artigo descobriu que dimensionar o decodificador é mais importante do que dimensionar o codificador.
Onde cabe em uma pilha agente
Um LCLM não é um conceito abstrato de pesquisa. Ele foi projetado para funcionar com uma pilha existente. “Você pode simplesmente trocar os LCLMs por qualquer LLM existente”, disse Goldblum. “Sempre que você recuperar dados como documentos e quiser despejá-los no contexto do seu modelo, basta primeiro executar esses documentos no compressor do LCLM.”
Ele observou que no artigo de pesquisa, os pesquisadores demonstraram como construir agentes que descompactam seletivamente textos úteis.
“Pense nisso como uma leitura humana do conteúdo antes de ampliar os detalhes relevantes”, disse Goldblum.
Goldblum também alertou que as equipes que integram a abordagem aos pipelines de agentes existentes precisarão ajustar seus sistemas RAG de acordo.
“Também não trabalhamos na compressão on-line de traços de raciocínio”, disse ele. “A abordagem ingênua de compactar o rastreamento apenas ocasionalmente enquanto o gera pode funcionar, mas isso ainda precisa ser determinado.”
O que isso significa para as empresas
As janelas de contexto estão crescendo mais rápido do que a infraestrutura de inferência consegue acompanhar, e as empresas já estão gastando para consertar isso. Os dados da pesquisa VB Pulse Q1 2026 de mais de 100 organizações de funcionários mostram que a intenção de adoção de recuperação híbrida triplicou de 10,3% em janeiro para 33,3% em março. A otimização da recuperação ultrapassou a avaliação como a principal prioridade de investimento em março, atingindo 28,9% dos entrevistados qualificados.
Três coisas se destacam para as equipes que avaliam a adequação da produção:
-
Escalas de custos de inferência com comprimento de contexto. Com 1 milhão de tokens, a inferência não compactada com métodos de cache KV padrão fica sem memória em uma única GPU H200. O artigo relata que LCLMs com compactação de 16x permanecem dentro dos limites de memória nesse comprimento de contexto.
-
A integração do pipeline RAG requer ajuste. As equipes com pipelines RAG existentes precisarão validar o comportamento da compactação em relação às suas métricas de qualidade de recuperação antes de implantar em escala.
-
A compactação de rastreamento de raciocínio não foi resolvida. Para agentes que executam longas cadeias de raciocínio, o crescimento do contexto a partir do rastreamento é um problema separado da recuperação de documentos. Goldblum reconheceu a lacuna diretamente: a abordagem ingénua da compressão periódica de traços pode funcionar, mas não foi testada.
Os modelos estão disponíveis em huggingface.co/latent-context e o código em github.com/LeonLixyz/LCLM.
“As maiores coisas que nossas arquiteturas fazem é dar ao seu modelo acesso a contextos muito maiores, mas elas também desbloqueiam abordagens multiescala onde seu modelo pode percorrer grandes quantidades de texto ou código tremendous rápido e então apenas ampliar e ler completamente uma pequena parte do texto mais útil”, disse Goldblum.













