A indústria de IA entrou totalmente na “period do agente”, um paradigma em que os modelos de IA fazem muito mais do que gerar texto – eles agora planejam, executam e corrigem ativamente tarefas complexas ao longo de dias, em vez de segundos.
Portanto, talvez não seja surpreendente ver a famosa equipe Qwen de pesquisadores de IA da gigante chinesa de comércio eletrônico Alibaba lançar um modelo capaz de realizar trabalho autônomo de IA agente durante vários dias: esse modelo chegou na forma de Qwen3.7-Max, que o relatórios da empresa em uma postagem de blog alcançou “~35 horas de execução autônoma contínua” – embora em um formato proprietário, não de código aberto, como eram os lançamentos anteriores do Qwen Group.
Isso também period de se esperar – é o que muitos analistas e especialistas do setor temiam após a saída de vários líderes importantes da equipe Qwen no início deste ano. Mas faz sentido financeiramente para o Alibaba, pelo menos a curto prazo: treinar modelos de IA, especialmente aqueles tão poderosos como Qwen3.7-Max, é caro, e distribuí-los essencialmente de graça, como são os modelos de código aberto, não ajuda imediatamente a recuperar quaisquer custos.
Nesse sentido, o Alibaba está simplesmente alinhando seus esforços com gigantes americanos de IA como OpenAI e Google, oferecendo os melhores e mais recentes modelos apenas por meio de APIs pagas e assinaturas ou pacotes de planos pagos da internet, e modelos com desempenho ligeiramente inferior por meio de código aberto.
Ainda assim, a chegada do Qwen3.7-Max oferece mais opções para empresas e usuários individuais, e mais concorrência para os laboratórios americanos de IA – raramente algo ruim para consumidores em todos os níveis de orçamento. No entanto, o facto de o modelo só ser acessível a partir de terminais baseados na China significa que o seu apelo pode ser limitado às empresas americanas e europeias que procuram maximizar a conformidade e a postura de segurança ao cumprir contratos governamentais, ou mesmo apenas tentar cumprir todos os regulamentos relevantes de soberania de dados estatais, locais e nacionais.
A period da IA da maratona
Para entender por que o Qwen3.7-Max se diferencia dos modelos anteriores, é preciso observar como ele foi treinado e como funciona na prática.
Os modelos de linguagem normalmente se degradam quando forçados a manter uma única linha de pensamento ao longo de milhares de turnos de conversação; eles esquecem instruções, alucinam variáveis ou simplesmente ficam presos em loops lógicos. Qwen3.7-Max foi projetado especificamente como uma “base de agente versátil” capaz de “raciocínio de longo horizonte” para superar exatamente esse gargalo.
A demonstração mais nítida dessa capacidade é uma tarefa de engenharia autônoma detalhada pela equipe Qwen. O modelo recebeu acesso a um servidor isolado equipado com uma PPU T-Head ZW-M890 – uma arquitetura de {hardware} que o modelo nunca havia encontrado durante seu treinamento. Sua tarefa period otimizar um núcleo de atenção.
Ao longo de 35 horas seguidas, o Qwen3.7-Max operou de forma totalmente autônoma. Ele executou 1.158 chamadas de ferramentas distintas, realizou 432 avaliações de kernel, diagnosticou falhas de compilação e melhorou iterativamente o código para atingir uma aceleração média geométrica de 10,0x.
Em comparação, os modelos concorrentes chineses, como o GLM-5.1 da z.ai e o Kimi K2.6 da Moonshot, atingiram acelerações de 7,3x e 5,0x, respectivamente, muitas vezes encerrando voluntariamente suas sessões quando não conseguiram progredir. No entanto, ambos estão disponíveis em código aberto.
Esta resistência é alcançada através do que o Alibaba chama de “escalonamento ambiental”. Assim como os primeiros LLMs se tornaram mais inteligentes ao ingerir textos mais diversos, o Qwen3.7-Max foi treinado em uma vasta e escalonada gama de ambientes de agente dinâmicos.
É capaz de simular o ciclo de vida de um ano de uma startup na avaliação “YC-Bench”, navegando por centenas de rodadas de tomada de decisão que abrangem gestão de pessoal e triagem de contratos. Nesta simulação, o modelo conseguiu gerar US$ 2,08 milhões em receita digital, quase dobrando o desempenho da geração anterior, Qwen3.6-Plus.
Além disso, o modelo possui automonitoramento integrado de hacking de recompensa, detectando autonomamente quando tenta enganar um ambiente de treinamento e adicionando regras heurísticas para corrigir seu próprio comportamento.
Um cérebro para qualquer andaime
Do ponto de vista do produto, o Qwen3.7-Max foi projetado para ser o mecanismo cognitivo para o desenvolvimento de software program moderno e automação empresarial.
O modelo oferece uma enorme janela de contexto de 1 milhão de tokens e um limite máximo de saída de 64K, proporcionando imensa sobrecarga para o processamento de bases de código extensas ou documentos técnicos extensos.
Uma de suas características mais atraentes é “generalização cruzada”. Em vez de ser codificado para funcionar melhor em uma interface proprietária específica, o Qwen3.7-Max foi desenvolvido para atuar como uma camada de inteligência integrada para diversas estruturas de agentes. Isto suporta o protocolo API Anthropic nativamente, permitindo que os desenvolvedores conecte-o diretamente em ferramentas existentes como Claude Code ou OpenClaw.
Os dados de referência fornecidos pela Alibaba indicam que esta abordagem generalizada rendeu enormes dividendos.
No benchmark Apex Math ReasoningQwen3.7-Max marcou 44,5, superando a pontuação de Claude Opus-4,6 Max de 34,5 e 38.3 do DeepSeek V4-Professional Max. Também postou pontuações dominantes no Último Exame da Humanidade (41,4) e no benchmark de agente de codificação realista MCP-Atlas (76,4).
Isso se traduz em utilidade tangível para os usuários finais. Por meio de integrações do Mannequin Context Protocol (MCP) de código aberto, o modelo pode operar como um assistente de escritório autônomo, capaz de ler especificações de formatação universitária e reformatar automaticamente um documento Phrase confuso por meio de ferramentas de linha de comando sem intervenção humana.
Administrar esse nível de inteligência tem um custo distinto. Os desenvolvedores que acessam a API por meio do Alibaba Cloud Mannequin Studio pagarão US$ 2,50 por 1 milhão de tokens de entrada e US$ 7,50 por 1 milhão de tokens de saída. A plataforma também oferece criação explícita de cache e preços de leitura, bem como uma taxa de US$ 10 por 1.000 chamadas para pesquisas integradas na internet, embora as ferramentas de interpretação de código permaneçam gratuitas por tempo limitado.
Qwen3.7-Max ocupa um meio-termo estratégico na atual economia de APIs. Embora exija um prêmio notável em relação aos rivais domésticos com preços agressivos – custando quase o dobro do DeepSeek V4 Professional (US$ 5,22) e do GLM-5.1 da Z.ai (US$ 5,80) – ele prejudica drasticamente os gigantes da fronteira ocidental que rotineiramente iguala nos benchmarks.
Para fins de contexto, a execução de fluxos de trabalho de agentes pesados por meio do GPT-5.4 da OpenAI ou do Claude Opus 4.7 da Anthropic custará aos desenvolvedores US$ 17,50 e US$ 30,00 por milhão de tokens, respectivamente. Veja a tabela de preços do VentureBeat abaixo:
|
Modelo |
Entrada |
Saída |
Custo whole |
Fonte |
|
Flash MiMo-V2.5 |
US$ 0,10 |
US$ 0,30 |
US$ 0,40 |
|
|
MiniMax M2.7 |
US$ 0,30 |
US$ 1,20 |
US$ 1,50 |
|
|
Gêmeos 3.1 Flash-Lite |
US$ 0,25 |
US$ 1,50 |
US$ 1,75 |
|
|
MiMo-V2.5 |
US$ 0,40 |
US$ 2,00 |
US$ 2,40 |
|
|
Kimi-K2.6 |
US$ 0,95 |
US$ 4,00 |
US$ 4,95 |
|
|
GLM-5 |
US$ 1,00 |
US$ 3,20 |
US$ 4,20 |
|
|
Grok 4.3 (baixo contexto) |
US$ 1,25 |
US$ 2,50 |
US$ 3,75 |
|
|
DeepSeek V4 Professional |
US$ 1,74 |
US$ 3,48 |
US$ 5,22 |
|
|
GLM-5.1 |
US$ 1,40 |
US$ 4,40 |
US$ 5,80 |
|
|
Claude Haiku 4.5 |
US$ 1,00 |
US$ 5,00 |
US$ 6,00 |
|
|
Grok 4.3 (alto contexto) |
US$ 2,50 |
US$ 5,00 |
US$ 7,50 |
|
|
Qwen3.7-Máx. |
US$ 2,50 |
US$ 7,50 |
US$ 10,00 |
|
|
Gêmeos 3.5 Flash |
US$ 1,50 |
US$ 9,00 |
US$ 10,50 |
|
|
Pré-visualização do Gemini 3.1 Professional (≤200K) |
US$ 2,00 |
US$ 12,00 |
US$ 14,00 |
|
|
GPT-5.4 |
US$ 2,50 |
US$ 15,00 |
US$ 17,50 |
|
|
Pré-visualização do Gemini 3.1 Professional (>200K) |
US$ 4,00 |
US$ 18,00 |
US$ 22,00 |
|
|
Cláudio Opus 4.7 |
US$ 5,00 |
US$ 25,00 |
US$ 30,00 |
|
|
GPT-5.5 |
US$ 5,00 |
US$ 30,00 |
US$ 35,00 |
Ao posicionar o Qwen3.7-Max brand abaixo do Gemini 3.5 Flash do Google (US$ 10,50), mas bem acima dos modelos de orçamento, o Alibaba está sinalizando que este não é um lançamento de commodity; é um mecanismo de raciocínio carro-chefe com preço para atrair cargas de trabalho empresariais das ofertas mais caras do Vale do Silício.
O licenciamento permanece proprietário por enquanto
Apesar de todo o seu brilhantismo técnico, o aspecto mais controverso do Qwen3.7-Max é como ele é distribuído. Qwen está classificando o lançamento como um “modelo proprietário”. É estritamente apenas API.
Historicamente, Qwen do Alibaba tem sido um herói para o código aberto e comunidades locais de LLM. Iterações anteriores, como Qwen 2.5 e Qwen 3.6, divulgaram seus pesos publicamente. Os pesos abertos permitem que desenvolvedores, pesquisadores e empresas baixem o modelo, executem-no em seu próprio {hardware} e ajustem-no para casos de uso altamente específicos ou sensíveis a dados, sem enviar informações proprietárias a um servidor de terceiros.
Ao bloquear o Qwen3.7-Max por trás de uma API, o Alibaba está se voltando para o handbook comercial padrão utilizado pela OpenAI (com GPT-4) e Anthropic (com Claude). Para usuários corporativos, isso significa que a utilização do Qwen3.7-Max exige confiar no Alibaba Cloud com seus fluxos de dados e depender inteiramente da conectividade com a Web para executar seus fluxos de trabalho de agente. Para a comunidade de código aberto, significa perder o acesso ao que é atualmente um dos modelos mais capazes do planeta.
As reações da comunidade dividem-se entre admiração e decepção
A reação da comunidade de desenvolvedores foi rápida, caracterizada por uma mistura de profundo respeito pelas conquistas da engenharia e frustração com o modelo de licenciamento.
Proeminente Comentarista de IA Sudo su (@sudoingX) capturou o sentimento predominante no X (antigo Twitter). “qwen é irreal”, escreveram eles. “eles caíram 3,7 no máximo e estão batendo o opus 4,6 no máximo na maioria dos benchmarks que executaram”.
As métricas técnicas, especialmente a resistência do modelo, deixaram muitos no campo atordoados. “o número matemático máximo, 44,5 contra o opus 34,5, não é uma lacuna pequena”, observou Sudo su. “as 35 horas seguidas em uma tarefa de otimização do kernel com mais de 1000 chamadas de ferramentas é a parte que continuo relendo. Essa é a coisa da period do agente realmente acontecendo, não um slide”.
A velocidade da iteração do Alibaba também chama a atenção. Com o Qwen 3.6 lançado no mês passado, o salto para o 3.7-Max destaca uma cadência de desenvolvimento implacável. Como observou Sudo su, “ninguém mais está se movendo assim”.
No entanto, o elogio é fortemente prejudicado pela mudança para um ecossistema fechado. A perda dos pesos dos modelos é vista como um golpe para o movimento de IA localizada, que depende de modelos abertos de última geração para ultrapassar os limites do que pode ser feito em {hardware} de consumo ou em clusters de empresas privadas.
“Mas uma coisa, por favor, abra o código deste também”, Sudo su implorou em seu publish. “3.6 denso tornou todo o ecossistema llm native melhor. O nível máximo da API apenas fecharia uma porta que temos mantido aberta. Dê-nos os pesos eventualmente”.
Qwen3.7-Max prova que a period do agente autônomo não é mais uma projeção teórica; é uma realidade atual capaz de executar proezas complexas de engenharia enquanto os humanos dormem. A única questão agora é se esta nova fronteira da IA será um recurso democratizado que você pode baixar para o seu laptop computer ou um utilitário de inteligência alugado estritamente da nuvem. Por enquanto, com Qwen3.7-Max, é inegavelmente o último.













