Início Tecnologia O Qwen3.7-Max proprietário do Alibaba pode funcionar de forma autônoma por 35...

O Qwen3.7-Max proprietário do Alibaba pode funcionar de forma autônoma por 35 horas e oferece suporte a chicotes externos como o Claude Code da Anthropic

28
0

A indústria de IA entrou totalmente na “period do agente”, um paradigma em que os modelos de IA fazem muito mais do que gerar texto – eles agora planejam, executam e corrigem ativamente tarefas complexas ao longo de dias, em vez de segundos.

Portanto, talvez não seja surpreendente ver a famosa equipe Qwen de pesquisadores de IA da gigante chinesa de comércio eletrônico Alibaba lançar um modelo capaz de realizar trabalho autônomo de IA agente durante vários dias: esse modelo chegou na forma de Qwen3.7-Max, que o relatórios da empresa em uma postagem de blog alcançou “~35 horas de execução autônoma contínua” – embora em um formato proprietário, não de código aberto, como eram os lançamentos anteriores do Qwen Group.

Isso também period de se esperar – é o que muitos analistas e especialistas do setor temiam após a saída de vários líderes importantes da equipe Qwen no início deste ano. Mas faz sentido financeiramente para o Alibaba, pelo menos a curto prazo: treinar modelos de IA, especialmente aqueles tão poderosos como Qwen3.7-Max, é caro, e distribuí-los essencialmente de graça, como são os modelos de código aberto, não ajuda imediatamente a recuperar quaisquer custos.

Nesse sentido, o Alibaba está simplesmente alinhando seus esforços com gigantes americanos de IA como OpenAI e Google, oferecendo os melhores e mais recentes modelos apenas por meio de APIs pagas e assinaturas ou pacotes de planos pagos da internet, e modelos com desempenho ligeiramente inferior por meio de código aberto.

Ainda assim, a chegada do Qwen3.7-Max oferece mais opções para empresas e usuários individuais, e mais concorrência para os laboratórios americanos de IA – raramente algo ruim para consumidores em todos os níveis de orçamento. No entanto, o facto de o modelo só ser acessível a partir de terminais baseados na China significa que o seu apelo pode ser limitado às empresas americanas e europeias que procuram maximizar a conformidade e a postura de segurança ao cumprir contratos governamentais, ou mesmo apenas tentar cumprir todos os regulamentos relevantes de soberania de dados estatais, locais e nacionais.

A period da IA ​​da maratona

Para entender por que o Qwen3.7-Max se diferencia dos modelos anteriores, é preciso observar como ele foi treinado e como funciona na prática.

Os modelos de linguagem normalmente se degradam quando forçados a manter uma única linha de pensamento ao longo de milhares de turnos de conversação; eles esquecem instruções, alucinam variáveis ​​ou simplesmente ficam presos em loops lógicos. Qwen3.7-Max foi projetado especificamente como uma “base de agente versátil” capaz de “raciocínio de longo horizonte” para superar exatamente esse gargalo.

A demonstração mais nítida dessa capacidade é uma tarefa de engenharia autônoma detalhada pela equipe Qwen. O modelo recebeu acesso a um servidor isolado equipado com uma PPU T-Head ZW-M890 – uma arquitetura de {hardware} que o modelo nunca havia encontrado durante seu treinamento. Sua tarefa period otimizar um núcleo de atenção.

Ao longo de 35 horas seguidas, o Qwen3.7-Max operou de forma totalmente autônoma. Ele executou 1.158 chamadas de ferramentas distintas, realizou 432 avaliações de kernel, diagnosticou falhas de compilação e melhorou iterativamente o código para atingir uma aceleração média geométrica de 10,0x.

Em comparação, os modelos concorrentes chineses, como o GLM-5.1 da z.ai e o Kimi K2.6 da Moonshot, atingiram acelerações de 7,3x e 5,0x, respectivamente, muitas vezes encerrando voluntariamente suas sessões quando não conseguiram progredir. No entanto, ambos estão disponíveis em código aberto.

Esta resistência é alcançada através do que o Alibaba chama de “escalonamento ambiental”. Assim como os primeiros LLMs se tornaram mais inteligentes ao ingerir textos mais diversos, o Qwen3.7-Max foi treinado em uma vasta e escalonada gama de ambientes de agente dinâmicos.

É capaz de simular o ciclo de vida de um ano de uma startup na avaliação “YC-Bench”, navegando por centenas de rodadas de tomada de decisão que abrangem gestão de pessoal e triagem de contratos. Nesta simulação, o modelo conseguiu gerar US$ 2,08 milhões em receita digital, quase dobrando o desempenho da geração anterior, Qwen3.6-Plus.

Além disso, o modelo possui automonitoramento integrado de hacking de recompensa, detectando autonomamente quando tenta enganar um ambiente de treinamento e adicionando regras heurísticas para corrigir seu próprio comportamento.

Um cérebro para qualquer andaime

Do ponto de vista do produto, o Qwen3.7-Max foi projetado para ser o mecanismo cognitivo para o desenvolvimento de software program moderno e automação empresarial.

O modelo oferece uma enorme janela de contexto de 1 milhão de tokens e um limite máximo de saída de 64K, proporcionando imensa sobrecarga para o processamento de bases de código extensas ou documentos técnicos extensos.

Uma de suas características mais atraentes é “generalização cruzada”. Em vez de ser codificado para funcionar melhor em uma interface proprietária específica, o Qwen3.7-Max foi desenvolvido para atuar como uma camada de inteligência integrada para diversas estruturas de agentes. Isto suporta o protocolo API Anthropic nativamente, permitindo que os desenvolvedores conecte-o diretamente em ferramentas existentes como Claude Code ou OpenClaw.

Os dados de referência fornecidos pela Alibaba indicam que esta abordagem generalizada rendeu enormes dividendos.

No benchmark Apex Math ReasoningQwen3.7-Max marcou 44,5, superando a pontuação de Claude Opus-4,6 Max de 34,5 e 38.3 do DeepSeek V4-Professional Max. Também postou pontuações dominantes no Último Exame da Humanidade (41,4) e no benchmark de agente de codificação realista MCP-Atlas (76,4).

Tabela de comparação de benchmark Alibaba Qwen3.7-Max. Crédito: Alibaba Qwen

Isso se traduz em utilidade tangível para os usuários finais. Por meio de integrações do Mannequin Context Protocol (MCP) de código aberto, o modelo pode operar como um assistente de escritório autônomo, capaz de ler especificações de formatação universitária e reformatar automaticamente um documento Phrase confuso por meio de ferramentas de linha de comando sem intervenção humana.

Administrar esse nível de inteligência tem um custo distinto. Os desenvolvedores que acessam a API por meio do Alibaba Cloud Mannequin Studio pagarão US$ 2,50 por 1 milhão de tokens de entrada e US$ 7,50 por 1 milhão de tokens de saída. A plataforma também oferece criação explícita de cache e preços de leitura, bem como uma taxa de US$ 10 por 1.000 chamadas para pesquisas integradas na internet, embora as ferramentas de interpretação de código permaneçam gratuitas por tempo limitado.

Qwen3.7-Max ocupa um meio-termo estratégico na atual economia de APIs. Embora exija um prêmio notável em relação aos rivais domésticos com preços agressivos – custando quase o dobro do DeepSeek V4 Professional (US$ 5,22) e do GLM-5.1 da Z.ai (US$ 5,80) – ele prejudica drasticamente os gigantes da fronteira ocidental que rotineiramente iguala nos benchmarks.

Para fins de contexto, a execução de fluxos de trabalho de agentes pesados ​​por meio do GPT-5.4 da OpenAI ou do Claude Opus 4.7 da Anthropic custará aos desenvolvedores US$ 17,50 e US$ 30,00 por milhão de tokens, respectivamente. Veja a tabela de preços do VentureBeat abaixo:

Modelo

Entrada

Saída

Custo whole

Fonte

Flash MiMo-V2.5

US$ 0,10

US$ 0,30

US$ 0,40

Xiaomi MiMo

MiniMax M2.7

US$ 0,30

US$ 1,20

US$ 1,50

MiniMax

Gêmeos 3.1 Flash-Lite

US$ 0,25

US$ 1,50

US$ 1,75

Google

MiMo-V2.5

US$ 0,40

US$ 2,00

US$ 2,40

Xiaomi MiMo

Kimi-K2.6

US$ 0,95

US$ 4,00

US$ 4,95

Moonshot/Kimi

GLM-5

US$ 1,00

US$ 3,20

US$ 4,20

Z.ai

Grok 4.3 (baixo contexto)

US$ 1,25

US$ 2,50

US$ 3,75

xAI

DeepSeek V4 Professional

US$ 1,74

US$ 3,48

US$ 5,22

DeepSeek

GLM-5.1

US$ 1,40

US$ 4,40

US$ 5,80

Z.ai

Claude Haiku 4.5

US$ 1,00

US$ 5,00

US$ 6,00

Antrópico

Grok 4.3 (alto contexto)

US$ 2,50

US$ 5,00

US$ 7,50

xAI

Qwen3.7-Máx.

US$ 2,50

US$ 7,50

US$ 10,00

Nuvem Alibaba

Gêmeos 3.5 Flash

US$ 1,50

US$ 9,00

US$ 10,50

Google

Pré-visualização do Gemini 3.1 Professional (≤200K)

US$ 2,00

US$ 12,00

US$ 14,00

Google

GPT-5.4

US$ 2,50

US$ 15,00

US$ 17,50

OpenAI

Pré-visualização do Gemini 3.1 Professional (>200K)

US$ 4,00

US$ 18,00

US$ 22,00

Google

Cláudio Opus 4.7

US$ 5,00

US$ 25,00

US$ 30,00

Antrópico

GPT-5.5

US$ 5,00

US$ 30,00

US$ 35,00

OpenAI

Ao posicionar o Qwen3.7-Max brand abaixo do Gemini 3.5 Flash do Google (US$ 10,50), mas bem acima dos modelos de orçamento, o Alibaba está sinalizando que este não é um lançamento de commodity; é um mecanismo de raciocínio carro-chefe com preço para atrair cargas de trabalho empresariais das ofertas mais caras do Vale do Silício.

O licenciamento permanece proprietário por enquanto

Apesar de todo o seu brilhantismo técnico, o aspecto mais controverso do Qwen3.7-Max é como ele é distribuído. Qwen está classificando o lançamento como um “modelo proprietário”. É estritamente apenas API.

Historicamente, Qwen do Alibaba tem sido um herói para o código aberto e comunidades locais de LLM. Iterações anteriores, como Qwen 2.5 e Qwen 3.6, divulgaram seus pesos publicamente. Os pesos abertos permitem que desenvolvedores, pesquisadores e empresas baixem o modelo, executem-no em seu próprio {hardware} e ajustem-no para casos de uso altamente específicos ou sensíveis a dados, sem enviar informações proprietárias a um servidor de terceiros.

Ao bloquear o Qwen3.7-Max por trás de uma API, o Alibaba está se voltando para o handbook comercial padrão utilizado pela OpenAI (com GPT-4) e Anthropic (com Claude). Para usuários corporativos, isso significa que a utilização do Qwen3.7-Max exige confiar no Alibaba Cloud com seus fluxos de dados e depender inteiramente da conectividade com a Web para executar seus fluxos de trabalho de agente. Para a comunidade de código aberto, significa perder o acesso ao que é atualmente um dos modelos mais capazes do planeta.

As reações da comunidade dividem-se entre admiração e decepção

A reação da comunidade de desenvolvedores foi rápida, caracterizada por uma mistura de profundo respeito pelas conquistas da engenharia e frustração com o modelo de licenciamento.

Proeminente Comentarista de IA Sudo su (@sudoingX) capturou o sentimento predominante no X (antigo Twitter). “qwen é irreal”, escreveram eles. “eles caíram 3,7 no máximo e estão batendo o opus 4,6 no máximo na maioria dos benchmarks que executaram”.

As métricas técnicas, especialmente a resistência do modelo, deixaram muitos no campo atordoados. “o número matemático máximo, 44,5 contra o opus 34,5, não é uma lacuna pequena”, observou Sudo su. “as 35 horas seguidas em uma tarefa de otimização do kernel com mais de 1000 chamadas de ferramentas é a parte que continuo relendo. Essa é a coisa da period do agente realmente acontecendo, não um slide”.

A velocidade da iteração do Alibaba também chama a atenção. Com o Qwen 3.6 lançado no mês passado, o salto para o 3.7-Max destaca uma cadência de desenvolvimento implacável. Como observou Sudo su, “ninguém mais está se movendo assim”.

No entanto, o elogio é fortemente prejudicado pela mudança para um ecossistema fechado. A perda dos pesos dos modelos é vista como um golpe para o movimento de IA localizada, que depende de modelos abertos de última geração para ultrapassar os limites do que pode ser feito em {hardware} de consumo ou em clusters de empresas privadas.

“Mas uma coisa, por favor, abra o código deste também”, Sudo su implorou em seu publish. “3.6 denso tornou todo o ecossistema llm native melhor. O nível máximo da API apenas fecharia uma porta que temos mantido aberta. Dê-nos os pesos eventualmente”.

Qwen3.7-Max prova que a period do agente autônomo não é mais uma projeção teórica; é uma realidade atual capaz de executar proezas complexas de engenharia enquanto os humanos dormem. A única questão agora é se esta nova fronteira da IA ​​será um recurso democratizado que você pode baixar para o seu laptop computer ou um utilitário de inteligência alugado estritamente da nuvem. Por enquanto, com Qwen3.7-Max, é inegavelmente o último.

fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui