Alibaba esta semana lançou Qwen3.7-Pluso mais recente modelo de linguagem grande (LLM) de IA em sua família Qwen, globalmente amada e cada vez mais expansiva, ostentando mais recursos multimodais e um custo 60% menor do que o modelo anterior, Qwen3.7-Max, apenas de texto, lançado há apenas algumas semanas.
No entanto, tal como o seu antecessor imediato, o Qwen3.7-Plus está disponível apenas sob uma licença comercial “fechada” by way of interfaces de programação de aplicativos (API) proprietárias e Qwen bate-papo.
Isso marca um grande afastamento da estratégia Qwen até o momento, que se concentrava principalmente no lançamento de modelos de código aberto poderosos e quase de última geração. As empresas e usuários que confiaram nos modelos Qwen de código aberto — entre eles, Gigantes dos EUA como Airbnb – sem dúvida ficará desapontado ao ver que o Alibaba será fechado para seus lançamentos mais recentes.
Ainda assim, vale a pena dar uma olhada no modelo devido ao seu baixo custo e alto desempenho em tarefas multimodais, como criação de recursos visuais de nível empresarial ou análise de vídeos, imagens e capturas de tela, o que o Qwen3.7-Max não pode fazer (é somente texto). Está entre os modelos de IA poderosos e mais baratos disponíveis agora, chegando em termos de preço brand acima do preço com desconto por tempo limitado do novo rival chinês MiniMax-M3.
Instantâneo de preços da API do modelo VentureBeat Frontier AI
|
Modelo |
Entrada |
Saída |
Custo whole |
Fonte |
|
Flash MiMo-V2.5 |
US$ 0,10 |
US$ 0,30 |
US$ 0,40 |
|
|
deepseek-v4-flash |
US$ 0,14 |
US$ 0,28 |
US$ 0,42 |
|
|
deepseek-v4-pro |
US$ 0,435 |
US$ 0,87 |
US$ 1.305 |
|
|
MiniMax-M3 |
US$ 0,30 |
US$ 1,20 |
US$ 1,50 |
|
|
Qwen3.7-Plus |
US$ 0,40 |
US$ 1,60 |
US$ 2,00 |
|
|
Gêmeos 3.1 Flash-Lite |
US$ 0,25 |
US$ 1,50 |
US$ 1,75 |
|
|
MiMo-V2.5 |
US$ 0,40 |
US$ 2,00 |
US$ 2,40 |
|
|
Grok 4.3 baixo contexto |
US$ 1,25 |
US$ 2,50 |
US$ 3,75 |
|
|
GLM-5 |
US$ 1,00 |
US$ 3,20 |
US$ 4,20 |
|
|
Kimi-K2.6 |
US$ 0,95 |
US$ 4,00 |
US$ 4,95 |
|
|
GLM-5.1 |
US$ 1,40 |
US$ 4,40 |
US$ 5,80 |
|
|
Alto contexto do Grok 4.3 |
US$ 2,50 |
US$ 5,00 |
US$ 7,50 |
|
|
Qwen3.7-Máx. |
US$ 2,50 |
US$ 7,50 |
US$ 10,00 |
|
|
Gêmeos 3.5 Flash |
US$ 1,50 |
US$ 9,00 |
US$ 10,50 |
|
|
Pré-visualização do Gemini 3.1 Professional ≤200K |
US$ 2,00 |
US$ 12,00 |
US$ 14,00 |
|
|
GPT-5.4 |
US$ 2,50 |
US$ 15,00 |
US$ 17,50 |
|
|
Pré-visualização do Gemini 3.1 Professional> 200K |
US$ 4,00 |
US$ 18,00 |
US$ 22,00 |
|
|
Cláudio Opus 4.8 |
US$ 5,00 |
US$ 25,00 |
US$ 30,00 |
|
|
GPT-5.5 |
US$ 5,00 |
US$ 30,00 |
US$ 35,00 |
Manter a continuidade durante loops complexos de execução de ferramentas
Para os decisores técnicos que implementam agentes autónomos, o principal estrangulamento raramente tem sido a inteligência inicial do modelo. Em vez disso, é decadência do estado—a tendência de uma estrutura de agente perder sua trajetória analítica em tarefas de longo horizonte e múltiplas etapas.
Qwen3.7-Plus aborda essa vulnerabilidade arquitetônica por meio de uma abordagem combinada para gerenciamento de contexto e raciocínio de preservação do estado.
O modelo vem com um Janela de contexto de 1 milhão de tokens e aloca até 256 mil tokens especificamente para processamento interno da cadeia de pensamento. Para contextualizar essa capacidade, think about um agente automatizado de migração para a nuvem: ele pode ingerir uma base de código inteira, mapear as dependências e gastar milhares de tokens avaliando discretamente casos extremos antes de executar uma única linha de script bash.
Crucialmente, a API expõe um parâmetro chamado ‘preserve_thinking.’ Em todo o ecossistema do Alibaba, a capacidade serve como uma ponte arquitetônica padronizada, em vez de uma vantagem escalonada. O Alibaba introduziu o recurso durante a geração anterior do Qwen 3.6, integrando-o tanto no peso aberto Qwen3.6-27B e os modelos proprietários Max.
Basicamente, o parâmetro opera no nível da API e do modelo para reter informações internas blocos em turnos de conversação contínuos.
Essa continuidade estrutural resolve um gargalo crítico para desenvolvedores que projetam tarefas de longo prazo. Ao manter esses loops lógicos internos intactos, o recurso evita que o modelo abandone seu contexto ou recalcule desnecessariamente seu histórico em cache no meio de uma operação.
Quando um modelo executa atribuições de codificação agente complexas e em várias etapas, essa retenção permite que o sistema mantenha sua linha de pensamento unique sem perder o enredo ou esquecer a lógica subjacente de suas ações anteriores.
A Alibaba continua longe de ser a única a reconhecer esta necessidade técnica, uma vez que o conceito subjacente dita agora a arquitectura de quase todos os principais laboratórios de inteligência synthetic.
A Anthropic implanta exatamente esse recurso sob o nome de “Prolonged Considering” para seus modelos avançados, incluindo seu mais recente Claude Opus 4.8. Essa estrutura exige que os desenvolvedores alimentem blocos de pensamento não modificados diretamente na API nos turnos subsequentes para manter uma cadeia ininterrupta de raciocínio.
OpenAI enfrenta o mesmo desafio por meio de um mecanismo de retorno de raciocínio criptografado para modelos como GPT-5.5. Dentro do ecossistema OpenAI, os desenvolvedores devem retornar itens de raciocínio específicos gerados junto com chamadas de função anteriores, garantindo que o modelo se lembre explicitamente da lógica por trás das execuções de suas ferramentas.
Em última análise, preserve_thinking simplesmente representa a terminologia do Alibaba para o que rapidamente se tornou a aposta indiscutível do raciocínio moderno multivoltas.
Os benchmarks mostram um modelo competitivo, mas de última geração
Nas métricas de capacidade bruta, essa arquitetura profunda se traduz em ganhos estruturais em benchmarks multimodais e de agência. No entanto, ainda fica abaixo de muitas das gerações anteriores e líderes de modelos proprietários dos EUA, como Claude Opus 4.6 da Anthropic e GPT-5.4 da OpenAI.
Sobre Banco Terminal 2.0-Terminusque mede a capacidade de um modelo de executar código actual em nível de terminal com segurança e iterativamente, pontuou Qwen3.7-Plus 70,3superando DeepSeek-V4-Professional Max (67,9) e Gemini-3.1 Professional (63,5).
Em benchmarks de visão computacional que exigem compreensão localizada da interface, como TelaSpot Professionalo modelo bateu 79,0ultrapassando significativamente os destaques da indústria legada, como GPT-5.4 (xhigh) com 67,4 e Claude-Opus-4.6 com 49,5. Métricas de avaliação de agentes (referências selecionadas)
Para que as empresas devem considerar o Qwen3.7-Plus?
Para um arquiteto corporativo, a questão principal ao analisar o Qwen3.7-Plus é clara: O que isso substitui em nossa pilha de tecnologia atual?
O modelo foi projetado para substituir diretamente os principais modelos de fronteira (como modelos GPT-5-tier ou Claude-Max-tier) em fluxos de trabalho de desenvolvedores de alta frequência, automação de processos robóticos (RPA) e pipelines de engenharia de dados.
Em vez de implantar um modelo carro-chefe caro e de uso geral para lidar com operações repetitivas do sistema, as equipes técnicas podem encaminhar essas tarefas para o Qwen3.7-Plus. Ele lida com a interpretação da interface visible, execução de comandos e geração de código simultaneamente.
A Alibaba estruturou sua entrega de API para se alinhar às estruturas empresariais proprietárias e de código aberto existentes. Os endpoints são totalmente compatíveis com OpenAI, o que significa que a troca de dependências existentes requer ajustes mínimos de infraestrutura. Para grupos que utilizam estruturas de terminais autônomos, a integração tem suporte nativo em vários ambientes.
Os engenheiros podem executar o Qwen3.7-Plus diretamente por meio das configurações de terminal native, alterando os alvos do ambiente base.
Do ponto de vista puramente de custo, executar uma estrutura de agente que faz referência constante a repositórios de código massivos ou históricos de format visible pode rapidamente se tornar um custo proibitivo.
O Alibaba resolve isso expondo preços granulares de cache.
O processamento de entrada padrão custa US$ 0,40 por milhão de tokens, mas se o agente estiver lendo de um cache criado explicitamente (por exemplo, um repositório base massivo ou um equipment de UI corporativo padrão que permanece estático ao longo de centenas de loops automatizados), o custo cai drasticamente para US$ 0,04 por 1 milhão de tokens para leituras subsequentes.
Essa camada torna as iterações de agentes multivoltas e de alta frequência economicamente práticas em escala empresarial.
Nenhuma licença de código aberto ou pesos abertos levantam a questão da conformidade para as empresas
Ao avaliar qualquer modelo no ecossistema Qwen, a principal preocupação das equipes jurídicas e de segurança é a estrutura de licenciamento e os limites operacionais do pipeline de dados.
Embora as iterações anteriores da família Qwen tenham ganhado força empresarial significativa por meio da disponibilidade de peso totalmente de código aberto sob o Apache 2.0 ou licenças de uso aberto personalizadas, o Qwen3.7-Plus é fornecido estritamente como uma API de nuvem comercial gerenciada por meio do Alibaba Cloud Mannequin Studio. Para a gestão de riscos empresariais, esta distinção traz implicações específicas:
-
Sem implantação de peso native: As organizações não podem fazer obtain, fazer sandbox ou hospedar localmente os pesos do Qwen3.7-Plus em seus knowledge facilities internos completamente isolados. Todas as chamadas de verificação de dados, processamento visible e execução devem passar pelos endpoints internacionais do Alibaba Cloud (por exemplo, a instância de Cingapura destacada na documentação do desenvolvedor).
-
Conformidade e Soberania: Como o modelo exige inferência baseada em nuvem, as empresas que operam sob estritos limites de dados soberanos (como entidades de saúde sujeitas a restrições locais da HIPAA/GDPR ou prestadores de serviços de defesa) devem avaliar explicitamente se o roteamento externo de API está em conformidade com suas obrigações específicas de residência de dados.
-
Mitigação de risco gerenciada: por outro lado, uma estrutura de API gerenciada elimina a carga de infraestrutura interna de provisionamento, otimização e manutenção de clusters multi-GPU (como arrays Nvidia H100 dedicados) simplesmente para hospedar uma rede de agente interna.
Ainda assim, Qwen3.7-Plus oferece alta inteligência em todas as modalidades a baixo custo
A recepção inicial das comunidades de desenvolvedores e do capital de risco técnico destaca as mudanças na economia da implantação de agentes.
Voz proeminente da indústria e capitalista de risco da Web3 @Boxmining destacou a vantagem estratégica de custo, afirmando:
“Qwen 3.7 Plus sendo 40% mais barato que Max muda a conversa. Se a saída for próxima o suficiente para a maioria dos códigos e muito mais forte para fluxos de trabalho visuais, você realmente precisa do Max todos os dias ou apenas para trabalhos pesados apenas de terminal?”
Esta perspectiva alinha-se com a tendência precise de optimização dos orçamentos operacionais das empresas: afastar-se da computação bruta e irrestrita em direcção à automatização de tarefas direccionadas. Ao mesmo tempo, investigadores especializados profundamente inseridos no ecossistema salientam que esta não é apenas uma optimização incremental da geração de texto.
Dunjie Lu, um estagiário de pesquisa no Alibaba Qwen, comentou:
“Ele mostra ganhos claros em relação ao Qwen3.6-Plus em recursos de uso de computador, com uma generalização mais forte além das tarefas gerais de desktop para fluxos de trabalho profissionais, como engenharia de dados e pesquisa científica”.
Em última análise, para os compradores empresariais que decidem sobre o seu próximo roteiro de infraestrutura, o Qwen3.7-Plus apresenta uma alternativa prática. Se o objetivo principal da sua organização é construir loops de software program autônomos, resilientes e com capacidade visible que interagem diretamente com ambientes de desenvolvedor e consoles de nuvem, sem estourar seu orçamento de inferência, o modelo fornece um motivo convincente para mudar a execução de alternativas de fronteira mais caras.













