As equipes de engenharia que constroem pipelines de codificação de agentes agora têm uma alternativa concreta de código aberto para modelos gerenciados como Claude Fable 5 – que roda em um único H100. A desvantagem: o North Mini Code da Cohere, lançado na terça-feira, gerou três vezes mais tokens de saída de modelos comparáveis em testes independentes, um custo de verbosidade que aumenta em cargas de trabalho de produção de alto quantity.
O novo modelo de código aberto é um modelo de combinação de especialistas (MoE) de 30 bilhões de parâmetros com 3 bilhões de parâmetros ativos por token, desenvolvido para engenharia de software program de agente, incluindo orquestração de subagentes, mapeamento de arquitetura, revisão de código e trabalho de terminal. O modelo suporta uma janela de contexto de 256.000 tokens com um comprimento máximo de geração de 64.000 tokens e está disponível em Abraçando o rosto sob uma licença Apache 2.0.
O que o North Mini Code pode fazer
North Mini Code tem como alvo toda a pilha de codificação de agente. Aqui está o que o modelo faz e no que ele funciona.
Engenharia de software program. Cohere construiu o North Mini Code especificamente para engenharia de software program de agente, não adaptado de uma base de uso geral. Ele integrou recursos de uso de ferramentas e oferece suporte ao pensamento intercalado, o que, segundo Cohere, melhora o desempenho no trabalho de agência em várias etapas.
Mapeamento de arquitetura e revisão de código. North Mini Code pode analisar e mapear arquitetura de sistemas, revelar dependências e realizar revisão de código em grandes bases de código. Com uma janela de contexto de 256.000 tokens, ele pode conter projetos substanciais de vários arquivos em uma única passagem de contexto.
Tarefa agente baseada em terminalS. O modelo é treinado para ambientes de terminal, lidando com interações de shell, scripts de pacotes e ferramentas de linha de comando. Cohere comparou-o no Terminal-Bench v2, que testa agentes em ambientes de terminal reais, em vez de tarefas de geração de código sintético.
Como foi construído
North Mini Code é um modelo esparso de mistura de especialistas com 128 especialistas, dos quais 8 são ativados por token. O requisito de computação no momento da inferência está mais próximo de um modelo de 3 bilhões de parâmetros, apesar do complete de 30 bilhões de parâmetros. Nick Frosst, cofundador da Cohere, demonstrei rodando em um Mac Studio through MLX com cerca de 20 gigabytes de RAM, a mesma máquina que ele usa para seu próprio trabalho de codificação native.
Cohere treinou o modelo por meio de dois estágios de ajuste fino supervisionado seguido de aprendizado por reforço com recompensas verificáveis em mais de 70.000 tarefas verificáveis, abrangendo aproximadamente 5.000 repositórios, desduplicados no SWE-Bench.
Em vez de otimizar com base em um único andaime de agente, Cohere treinou em três. SWE-Agent usa uma CLI avançada com comandos especializados. O Mini-SWE-Agent usa uma única ferramenta bash com saída bruta do shell. OpenCode usa ferramentas digitadas individualmente que retornam JSON estruturado. Cohere relata um ganho de 10 pontos percentuais na avaliação OpenCode da abordagem multi-harness, mantendo o desempenho do SWE-Agent.
Onde cabe
North Mini Code entra em um mercado que agora inclui Mistral Devstral Small 2, GitHub Copilot, Cursor e Claude Fable 5 – cada um com custos distintos e compensações de implantação.
A principal comparação de benchmark de Cohere é com o Mistral Devstral Small 2, um modelo denso de 24 bilhões de parâmetros. Em testes internos relatados pelo fornecedor, Cohere afirma uma taxa de transferência de saída 2,8x maior e uma vantagem de latência entre tokens de 30% sobre o Devstral Small 2 em testes internos sob configurações de {hardware} idênticas. Cohere também afirma, em seu Postagem técnica Abraçando o Rostoque o North Mini Code supera os modelos de código aberto em até quatro vezes sua contagem de parâmetros em seus benchmarks relatados, incluindo modelos com 120 bilhões de parâmetros.
Análise Artificial classifica-o independentemente em oitavo lugar entre 127 modelos de peso aberto comparáveis na velocidade de saída de 210 tokens por segundo, com um tempo para o primeiro token de 0,25 segundo contra uma mediana de classe de 1,95 segundos. Ele ocupa o 18º lugar de 127 no Índice de Inteligência de Análise Synthetic. Um sinal dos mesmos dados: o modelo gerou 75 milhões de tokens de saída para completar o Índice de Inteligência contra uma mediana de classe de 25 milhões. Em pipelines de agente de alto quantity, essa verbosidade se soma ao custo de inferência e à latência.
“De repente, as pessoas estão pensando: ei, estou obtendo valor econômico suficiente dos tokens de um modelo?” Frost disse durante o vídeo de lançamento. “A implantação native é uma forma de capacitar as pessoas e tornar a IA realmente algo que funciona para elas.”
GitHub Copilot, Cursor e Claude Code operam com preços por uso ou por assinatura, sem opção native. Claude Fable 5 da Anthropic, agora o modelo de codificação gerenciada mais capaz disponível publicamente, custa US$ 50 por milhão de tokens de saída. Para Frost, o modelo é o oposto de Fable.
“É pequeno, econômico, apache 2.0 e implantável localmente. É assim que os LLMs devem seguir. Pequenos, de código aberto, transparentes e soberanos, versus grandes, caros, proprietários e hegemônicos”, escreveu Frosst em um postar no X.
O que isso significa para as empresas
Para equipes que constroem pipelines de codificação de agentes de produção, o lançamento do North Mini Code esclarece um conjunto de decisões que vêm sendo formadas há meses.
O treinamento de agente específico agora é uma base de avaliação. A distinção entre modelos ajustados para código e modelos treinados especificamente para fluxos de trabalho de agentes, com chamadas de ferramentas verificadas e robustez de múltiplos chicotes, é agora um fator importante nas decisões de pipeline. Qualquer fornecedor de modelo que alegue capacidade de codificação de agente deve ser capaz de responder se seu treinamento usou tarefas de agente verificáveis ou foi adaptado de uma base de uso geral.
A verbosidade é um custo de pipeline oculto que os benchmarks não revelam. A Análise Synthetic mediu o North Mini Code gerando três vezes mais tokens de saída de modelos comparáveis. Essa verbosidade aumenta o custo de inferência e a latência em pipelines de alto quantity. O teste de rendimento em relação ao quantity actual da carga de trabalho é a etapa de avaliação que as classificações de benchmark ignoram.
A divisão de preços fronteiriços é agora uma verdadeira decisão arquitetônica. Fable 5, com tokens de saída de US$ 50 por milhão e North Mini Code em um único H100, representa uma compensação genuína entre controle de custos e residência de dados, por um lado, e sobrecarga de infraestrutura gerenciada, por outro. As equipes que executam pipelines de codificação de agentes de alto quantity devem modelar ambos os caminhos de custo em relação à carga de trabalho actual antes de se comprometerem com qualquer um deles.













