Início Tecnologia Cohere quebra quantização sem perdas e citações nativas com o primeiro modelo...

Cohere quebra quantização sem perdas e citações nativas com o primeiro modelo aberto licenciado completo do Apache 2.0, Command A+

17
0

Laboratório canadense de IA Coerente fez ondas recentemente por anunciando uma fusão com a startup alemã de IA Aleph Alphamas agora tem ainda mais reservado para construtores de empresas em todo o mundo: hoje, a empresa cofundada pelo ex-Googler e coautor de “Consideration Is All You Want”, Aidan Gomez, revelou Comando A+um modelo de linguagem altamente otimizado com 218 bilhões de parâmetros, projetado especificamente para raciocínio complexo, processamento multimodal de documentos e fluxos de trabalho de agentes.

O aspecto mais significativo do lançamento não são apenas as capacidades do modelo; é a sua acessibilidade.

Ao liberar os pesos do modelo no popular repositório de compartilhamento de código de IA Hugging Face sob um licença de código aberto Apache 2.0 altamente permissiva – uma novidade para a empresa, de acordo com uma postagem de Gomez, agora CEO da Cohere, no X — A Cohere está a fazer uma aposta calculada na “IA soberana” – a tese de que as empresas, os governos e os programadores devem ter a capacidade de executar, controlar e adaptar a IA de nível de fronteira inteiramente dentro dos seus próprios ambientes seguros, sem sacrificar o desempenho.

Arquitetura esparsa com extrema quantização

No nível arquitetônico, o Command A+ representa uma grande evolução em relação aos modelos densos anteriores da Cohere. É um transformador de mistura esparsa de especialistas (MoE) apenas para decodificador.

Embora o modelo abrigue um complete relativamente modesto de 218 mil milhões de parâmetros, menos ainda – apenas 25 mil milhões – estão activos durante qualquer etapa de geração. É um espaço muito mais leve e requer muito menos recursos de computação para executar inferência (servindo o modelo em ambientes de produção para usuários finais ou por meio de agentes) do que gigantes proprietários dos EUA, como GPT-5.5 da OpenAI e Claude Opus 4.7 da Anthropic, que são estimado por observadores terceiros em trilhões de parâmetros.

Essa arquitetura esparsa é a chave para a eficiência do modelo. Em termos simples, um modelo MoE encaminha as consultas recebidas apenas para as redes neurais “especializadas” específicas mais adequadas para lidar com elas, deixando o resto do modelo inativo.

Esta é uma formulação acquainted e seguida pela maioria dos LLMs líderes atualmente, permitindo que os modelos retenham a vasta base de conhecimento e as capacidades de raciocínio diferenciadas de um gigante, mas com velocidades mais rápidas e requisitos reduzidos de computação e energia de um modelo muito menor, uma vez que apenas uma fração dos parâmetros é ativada a qualquer momento.

Mas onde Cohere deu um passo a mais além da maioria para o Command A+ é que ele se concentrou fortemente na eficiência do {hardware} por meio da quantização – um processo que comprime o consumo de memória do modelo, reduzindo o precisão de seus parâmetros.

O Command A+ está disponível em formato de 16 bits (BF16), 8 bits (FP8) e 4 bits altamente compactado (W4A4).

A quantização W4A4 é a peça central técnica desta versão. Normalmente, os modelos de raciocínio sofrem uma “taxa de quantização” descomunal, onde a compressão do modelo leva a regressões visíveis na resolução de problemas complexos.

Cohere mitigou isso quantizando apenas os especialistas do MoE para 4 bits, enquanto mantendo os caminhos críticos de atenção com complete precisão, complementado por uma técnica chamada Destilação Consciente de Quantização.

O resultado é um compressão quase sem perdas que permite que este modelo enorme seja executado em uma única GPU NVIDIA Blackwell B200 ou em apenas duas GPUs NVIDIA H100.

Os ganhos de velocidade são igualmente notáveis. De acordo com dados de desempenho divulgados pela empresa, a quantização W4A4 em baixa simultaneidade atinge 375 tokens por segundo (TOPS) com uma latência Time-to-First-Token (TTFT) de apenas 113 milissegundos – representando um aumento de até 63% na velocidade de saída e uma redução de 17% na latência em comparação com o modelo Command A Reasoning anterior.

Além disso, Cohere reformulou o tokenizer do modelo. Os tokenizadores dividem o texto em fragmentos que os modelos de IA processam. O novo tokenizer é altamente otimizado para uso empresarial world, apresentando suporte nativo para 48 idiomas.

Mais importante ainda, é melhora drasticamente a eficiência da tokenização para idiomas não europeus, reduzindo o número de tokens necessários para gerar respostas em árabe em 20%, em japonês em 18% e em coreano em 16%. Como os custos de inferência são calculados por token, isso se traduz diretamente em custos operacionais mais baixos para implantações globais, multilíngues ou em idiomas diferentes do inglês.

Fluxos de trabalho agentes e altos benchmarks em matemática e áreas especializadas

Embora a velocidade e o tamanho brutos determinem a implantação, a utilidade de um modelo é definida pelas capacidades do produto. O Command A+ foi construído especificamente para tarefas “agenticas” – fluxos de trabalho onde a IA opera de forma autônoma ou semiautônoma, usa ferramentas externas, consulta bancos de dados e sintetiza informações em várias etapas.

Os saltos de referência em relação à geração anterior são nítidos.

Gráficos de comparação de benchmark Cohere Command A+. Crédito: Cohere

No 𝜏²-Bench Telecom, que testa raciocínio complexo, o modelo saltou de uma pontuação de 37% para 85%. No Terminal-Bench Laborious, que mede o desempenho da codificação de agentes, subiu de 3% para 25%. Em matemática complexa, obteve 90% no AIME 25, acima dos 57%.

O Command A+ ultrapassa sua classe de peso (parâmetros ativos de 25B) em raciocínio puro e matemática, competindo diretamente com modelos muito maiores como DeepSeek V4 Professional em benchmarks matemáticos. No entanto, para codificação agente profunda e indexação geral de inteligência em larga escala, atualmente está atrás das gerações mais recentes de rivais chineses de código aberto como DeepSeek, Z.ai (GLM) e MiniMax.

Dito isto, compará-los ignora diretamente a proposta de valor central da Cohere: eficiência de {hardware}.

Além dos benchmarks, o Command A+ apresenta integrações profundas para confiança e verificação empresarial. O modelo oferece suporte ao uso de ferramentas de conversação por meio de modelos de chat padrão, permitindo que os desenvolvedores o conectem perfeitamente a APIs internas, mecanismos de pesquisa ou bancos de dados SQL.

Crucialmente, Command A+ apresenta geração de citações nativas. Quando o Comando A+ recupera informações de uma ferramenta externa, ele não apenas sintetiza a resposta; ele gera “extensões de aterramento” explícitas. Usando tags especiais incorporadas na saída, o o modelo vincula diretamente cada afirmação factual feita ao documento de origem específico ou à linha do banco de dados ele extraiu as informações.

Para empresas de setores fortemente regulamentados, como finanças, saúde ou jurídico, essa rastreabilidade é a diferença entre um protótipo interessante e um aplicativo pronto para produção. Se um usuário solicitar um relatório diário de vendas, o modelo produzirá o valor complete das vendas e citará explicitamente o resultado da consulta ao banco de dados que forneceu esse número, minimizando o risco de alucinações não detectadas.

Além disso, o Command A+ é totalmente multimodal, capaz de processar nativamente texto e imagens em sua enorme janela de contexto de entrada de 128K, tornando-o altamente eficaz para processamento de documentos complexos, como análise de faturas digitalizadas, gráficos ou manuais técnicos.

O primeiro modelo Cohere AI totalmente licenciado pelo Apache 2.0

No cenário atual de IA, “código aberto” tornou-se um termo complicado. Muitas empresas líderes de IA liberam seus pesos de modelo sob licenças comerciais restritivas ou políticas de uso aceitáveis ​​que proíbem explicitamente as grandes empresas de usar os modelos para fins comerciais ou proíbem que os modelos sejam usados ​​para treinar sistemas de IA concorrentes.

Na verdade, os modelos anteriores de Cohere, incluindo Command R e Command R+, foram lançados sob uma licença CC-BY-NC 4.0 (Inventive Commons NonCommercial). Embora seus pesos de modelo estivessem abertos para pesquisadores e desenvolvedores baixarem, mexerem e avaliarem, eles foram estritamente proibidos de serem usados ​​para fins comerciais sem comprar uma licença empresarial separada da Cohere ou passar por sua interface de programação de aplicativos (API), semelhante ao arranjo que muitas empresas usam para acessar modelos de IA da OpenAI, Anthropic, Google e outros laboratórios líderes.

Cohere mudou sua abordagem ao lançar o Command A+ sob a licença Apache 2.0. Esta é uma distinção crítica para a comunidade de desenvolvedores. Apache 2.0 é uma licença de código aberto verdadeira e aprovada pela OSI. Ele permite que qualquer pessoa – desde desenvolvedores independentes até empresas Fortune 500 – use, modifique, distribua e comercialize o modelo sem pagar taxas de licenciamento ou aderir a cláusulas restritivas de não concorrência.

Como Gomez escreveu no Xa decisão foi defendida pelo cofundador da Cohere, Nick Frosst, que postou uma visão geral de dois minutos chamando-o de “o melhor modelo que já lançamos”.

Para a empresa, esta licença significa complete independência do fornecedor. Uma empresa pode baixar os pesos do Command A+, ajustá-los em dados internos altamente confidenciais e implantá-los em seus próprios servidores privados ou redes isoladas. Eles não estão vinculados à infraestrutura da Cohere, às alterações de preços ou ao tempo de atividade da API. É a realização definitiva da IA ​​soberana.

O lançamento foi recebido com tração imediata em todo o ecossistema de desenvolvedores de IA, fortemente impulsionado por sua integração desde o primeiro dia com as principais estruturas de inferência de código aberto, como Hugging Face e vLLM.

O que vem a seguir?

O lançamento do Command A+ marca o amadurecimento do ecossistema de IA de código aberto. Ao combinar raciocínio de nível de fronteira, uso robusto de ferramentas de agente e recursos multimodais com uma arquitetura projetada especificamente para eficiência de {hardware}, Cohere está mudando o cálculo para a adoção de IA empresarial.

A exigência de clusters de computação massivos e centralizados tem sido um gargalo para as empresas que priorizam a privacidade dos dados e o controle de custos. Ao democratizar o acesso a um modelo deste calibre sob uma verdadeira licença de código aberto, a Cohere forneceu ao mercado empresarial exatamente o que ele estava pedindo: o poder da nuvem, capaz de funcionar com segurança na sala de servidores no remaining do corredor.

fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui