A suposição predominante no desenvolvimento da IA tem sido simples: modelos maiores treinados com mais dados produzem melhores resultados. O último lançamento da Nvidia desafia diretamente essa suposição de tamanho – e a receita de treinamento por trás dele pode ser mais importante para as equipes corporativas de IA do que o modelo em si. O pipeline de pós-treinamento Cascade RL do modelo de peso aberto, detalhado no relatório técnico da Nvidiaoferece um modelo reproduzível para equipes empresariais que criam sistemas de raciocínio específicos de domínio sem treinamento do zero.
Nemotron-Cascata 2 é um modelo de mistura de especialistas (MoE) 30B de peso aberto que ativa apenas parâmetros 3B no momento da inferência. Apesar desta pegada compacta, alcançou desempenho de nível de medalha de ouro em três das competições mais exigentes do mundo: a Olimpíada Internacional de Matemática (IMO) de 2025, a Olimpíada Internacional de Informática (IOI) e as Finais Mundiais do ICPC. É o segundo modelo aberto a atingir esse nível, depois do DeepSeek-V3.2-Speciale — um modelo com 20 vezes mais parâmetros.
Por que o pós-treinamento está se tornando a verdadeira vantagem competitiva
Pré-treinar um grande modelo de linguagem a partir do zero é extremamente caro – da ordem de dezenas a possivelmente centenas de milhões de dólares para modelos de fronteira. O Nemotron-Cascade 2 parte do mesmo modelo básico do Nemotron-3-Nano existente da Nvidia – mas supera esse modelo em quase todos os benchmarks e, em muitos casos, supera o Nemotron-3-Tremendous da própria Nvidia, um modelo com quatro vezes os parâmetros ativos, de acordo com o relatório técnico da Nvidia. A diferença está inteiramente na receita pós-treino.
Este é o perception estratégico para equipes empresariais: você não precisa necessariamente de um modelo básico maior ou mais caro. Você pode precisar de um pipeline de treinamento melhor além daquele que já possui. Cascade RL e MOPD representam uma abordagem específica e reproduzível para esse problema.
Cascade RL explicou: treinamento de domínio sequencial que evita esquecimentos catastróficos
A aprendizagem por reforço (RL) tornou-se a técnica dominante para ensinar os LLMs a raciocinar. O desafio é que treinar um modelo em vários domínios simultaneamente – matemática, código, seguimento de instruções, tarefas de agente – muitas vezes causa interferência. Melhorar o desempenho em um domínio o degrada em outro. Este é o problema do esquecimento catastrófico, um desafio há muito documentado no aprendizado de máquina multitarefa.
Cascata RL aborda isso treinando estágios de RL sequencialmente, um domínio por vez, em vez de misturar tudo. Nemotron-Cascade 2 segue uma ordem específica: primeiro RL seguindo instruções, depois RL de vários domínios (cobrindo questões STEM, chamada de ferramenta e saída estruturada), depois destilação de acordo com a política, depois RLHF para alinhamento de preferência humana, depois RL de contexto longo, depois código RL e, finalmente, RL de engenharia de software program.
Três propriedades tornam esta abordagem prática, de acordo com o relatório técnico da Nvidia. Primeiro, os estágios RL específicos do domínio revelam-se resistentes ao esquecimento catastrófico – o treinamento no código raramente degrada o desempenho matemático e, em alguns casos, na verdade o melhora. Em segundo lugar, como cada estágio treina em um único domínio, os hiperparâmetros e o currículo de treinamento podem ser adaptados às características específicas desse domínio, permitindo um melhor aprendizado geral. Terceiro, como as respostas dentro de um único domínio tendem a ser semelhantes em duração e custo de verificação, a utilização da computação é substancialmente mais eficiente do que o treinamento em domínios mistos.
A ordem em si não é fixa; depende do comportamento do modelo. A equipe do Nemotron-Cascade 2 descobriu que o RL de seguimento de instruções deve vir primeiro (porque pode entrar em conflito com o alinhamento de preferências humanas, que pode ser recuperado posteriormente), enquanto o RL de código e o RL de engenharia de software program funcionam melhor como os estágios finais, de acordo com o relatório.
Para equipes corporativas, a implicação é direta: se você estiver aplicando RL para melhorar um modelo em vários recursos, treiná-los sequencialmente com uma ordenação cuidadosa poderá fornecer melhores resultados do que tentar treinar tudo de uma vez.
MOPD: reutilizando seus próprios pontos de verificação de treinamento como professores
Mesmo com uma ordenação sequencial cuidadosa, algum desvio de desempenho é inevitável à medida que o modelo passa por muitos estágios RL. A solução da Nvidia é Destilação sob política multidomínio (MOPD) — uma técnica inserida no meio do pipeline Cascade RL para reequilibrar as capacidades.
A abordagem funciona da seguinte forma: à medida que o modelo passa por diferentes estágios de RL, alguns pontos de verificação intermediários serão a versão de melhor desempenho para domínios específicos. O ponto de verificação matemático pode ser mais forte após o SFT; o ponto de verificação de seguimento de instruções pode ser mais forte após IF-RL. O MOPD seleciona o melhor ponto de verificação intermediário para cada domínio e o utiliza como um “professor” para destilar o conhecimento de volta ao modelo do aluno.
Criticamente, estes professores não são modelos externos. Eles vêm da mesma execução de treinamento, compartilhando o mesmo tokenizador e arquitetura. Isto elimina problemas de incompatibilidade de distribuição que surgem ao destilar de uma família de modelos completamente diferente.
De acordo com o relatório técnico da Nvidia, o MOPD funciona no nível do token e não no nível da sequência, o que o torna substancialmente mais eficiente em termos de amostragem do que o RL com recompensas baseadas em resultados (GRPO, and many others.). A equipe da Nvidia relata que no benchmark matemático AIME 2025, o MOPD recuperou o desempenho do nível do professor em 30 etapas de otimização, enquanto o GRPO (Otimização de Política Relativa de Grupo) padrão exigiu mais etapas para atingir uma pontuação mais baixa. No benchmark ArenaHard para alinhamento de preferências humanas, o MOPD alcançou 85,5 em instruções rígidas em 52 etapas contra 80,7 do RLHF em 160 etapas.
A imagem de referência: dominante no raciocínio, honesto sobre as compensações
Os resultados em benchmarks com uso intensivo de raciocínio são impressionantes. Sobre LiveCodeBench v6um benchmark de codificação com problemas de plataformas de programação competitivas, Nemotron-Cascade 2 pontua 87,2 – superando Qwen3.5-35B-A3B (74,6), Qwen3.5-397B-A17B (83,6) e até mesmo Kimi-K2.5-1T (85,0). Sobre HMMT fevereiro de 2025um benchmark rigoroso de competição matemática, obteve pontuação de 94,6, pescoço a pescoço com modelos muitas vezes maiores que seu tamanho. Sobre ArenaHard v2 em qualidade de alinhamento, chega a 83,5, bem à frente dos concorrentes de sua categoria. Com o raciocínio integrado à ferramenta habilitado, o desempenho do AIME 2025 sobe para 98,6. Todas as pontuações de benchmark são relatadas pela própria Nvidia e não foram verificadas de forma independente.
O relatório técnico também é sincero sobre os pontos fracos. O modelo tem desempenho inferior ao Qwen3.5-35B-A3B em benchmarks de uso intensivo de conhecimento, como MMLU-Professional (79,8 vs. 85,3) e GPQA-Diamond (76,1 vs. 84,2), bem como em vários benchmarks de agentes, como BFCL v4 e τ²-Bench. Os autores observam explicitamente que um pré-treinamento intensivo em conhecimento e um RL agente mais forte são necessários em trabalhos futuros.
Essa honestidade é importante para os profissionais. O modelo é otimizado para raciocínio profundo e seguimento de instruções – não para recuperação de conhecimento geral ou interações complexas de agentes multivoltas. As equipes devem avaliar seu caso de uso específico e não assumir uma superioridade geral.
O que as equipes empresariais de IA podem tirar desta receita
Vários padrões de design deste trabalho são diretamente aplicáveis aos esforços empresariais de pós-treinamento. A ordenação sequencial de domínios no Cascade RL significa que as equipes podem adicionar novos recursos sem reconstruir todo o pipeline — uma propriedade crítica para organizações que precisam iterar rapidamente. A abordagem do MOPD de usar pontos de verificação intermediários como professores de domínios específicos elimina a necessidade de modelos de professores externos caros; as equipes podem extrair seus próprios instantâneos de melhor desempenho.
A configuração do treinamento também é notável: Cascade RL utiliza GRPO com treinamento rigoroso de acordo com a política e sem penalidade de KL por meio do código aberto da Nvidia Repositório Nemo-RL. Para o código RL, o pipeline usou apenas 3.500 problemas difíceis e filtrados.
Panorama geral: densidade de inteligência como princípio de design
Nemotron-Cascade 2 faz parte de uma tendência mais ampla em direção à “densidade de inteligência” – extraindo capacidade máxima por parâmetro ativo. Os modelos MoE da DeepSeek, as variantes A3B do Qwen e agora a série Cascade da Nvidia apontam para um futuro onde os modelos de raciocínio mais capazes não são necessariamente os maiores.
Para implantação empresarial, isso é extremamente importante. Um modelo com parâmetros ativos 3B pode ser atendido por uma fração do custo e da latência de um modelo denso de 70B. Os resultados da Nvidia sugerem que técnicas pós-treinamento como Cascade RL e MOPD podem preencher a lacuna de desempenho em domínios-alvo – dando às organizações um caminho para implantar fortes capacidades de raciocínio sem custos de infraestrutura de nível fronteiriço.
A questão em aberto é até que ponto esta abordagem pode ser generalizada. O Cascade RL funciona bem para domínios com recompensas verificáveis – a matemática tem respostas corretas, o código tem casos de teste, o seguimento de instruções tem verificadores baseados em regras. Estendê-lo a tarefas empresariais mais abertas, onde a verificação é ambígua, continua a ser um desafio activo de investigação. Para equipes que constroem sistemas que precisam de raciocínio profundo sobre problemas estruturados – modelagem financeira, computação científica, engenharia de software program, análise de conformidade – o relatório técnico da Nvidia oferece uma das metodologias pós-treinamento mais detalhadas publicadas até o momento.













