Início Tecnologia Microsoft lança MAI-Picture-2-Environment friendly, um modelo de imagem de IA mais barato...

Microsoft lança MAI-Picture-2-Environment friendly, um modelo de imagem de IA mais barato e rápido

18
0

Microsoft lançado hoje MAI-Image-2-Eficienteuma variante de baixo custo e maior velocidade de seu principal modelo de texto para imagem que, segundo a empresa, oferece qualidade pronta para produção por quase metade do preço. O lançamento, disponível imediatamente em Fundição Microsoft e Parque MAI sem lista de espera, marca o retorno mais rápido da equipe interna de superinteligência de IA da Microsoft – e o sinal mais claro de que Redmond leva a sério a construção de uma pilha de IA autossuficiente que não depende de OpenAI.

O novo modelo custa US$ 5 por milhão de tokens de entrada de texto e US$ 19,50 por milhão de tokens de saída de imagem, um redução de aproximadamente 41% dos preços do MAI-Picture-2 de US$ 5 e US$ 33, respectivamente, para esses mesmos níveis. A Microsoft afirma que o modelo funciona 22% mais rápido que seu irmão carro-chefe e atinge eficiência de rendimento 4x maior por GPU, conforme medido no {hardware} NVIDIA H100 com resolução de 1024×1024. A empresa também afirma que supera os modelos hiperescaladores concorrentes – nomeando especificamente os do Google Gêmeos 3.1 Flash, Imagem Flash Gêmeos 3.1e Gêmeos 3 Imagem Pro – em uma média de 40% nos benchmarks de latência p50.

O modelo também está sendo implementado em Co-piloto e Googledisse a Microsoft, com superfícies de produtos adicionais a seguir.

A estratégia de dois modelos da Microsoft pega emprestada uma página do handbook de preços de IA

Microsoft está se posicionando MAI-Image-2-Eficiente e seu carro-chefe MAI-Imagem-2 como ferramentas complementares, em vez de substitutas umas das outras — uma combinação em camadas projetada para cobrir todo o espectro de necessidades de geração de imagens empresariais.

MAI-Image-2-Eficiente tem como alvo cargas de trabalho de produção de alto quantity e sensíveis ao custo: fotografia de produtos, criativos de advertising, maquetes de UI, pipelines de ativos de marca e aplicativos interativos em tempo actual. Ele lida de forma limpa com textos curtos na imagem, como títulos e rótulos, de acordo com a Microsoft, e foi desenvolvido para operar dentro da latência restrita e das restrições orçamentárias dos ambientes de processamento em lote. MAI-Imagem-2Enquanto isso, continua sendo o instrumento de precisão da empresa – o modelo que você busca quando o briefing exige a mais alta fidelidade fotorrealista, estilização complexa como anime ou ilustração, ou tipografia de imagem mais longa e complexa. A Microsoft está efetivamente dizendo aos clientes corporativos: usem o modelo eficiente para sua linha de montagem e o carro-chefe para sua vitrine.

Esta abordagem reflete estratégias de preços que funcionaram em toda a indústria de IA – OpenAI’s Camadas de modelo GPTAntrópico Escalação Haiku-Soneto-Opusdo Google Distinção Flash-Pro — mas aplica-o especificamente à geração de imagens, um domínio onde a economia do custo por imagem pode determinar o sucesso ou o fracasso da implantação da produção em escala.

Como a Microsoft lançou um modelo de imagem otimizado para produção em menos de um mês

A velocidade deste lançamento merece atenção. O próprio MAI-Picture-2 só estreou no MAI Playground em 19 de março, como VentureBeat relatou anteriormente, com disponibilidade mais ampla por meio de Fundição Microsoft chegando em 2 de abril junto com outros dois novos modelos de base: MAI-Transcrever-1 (um modelo de fala para texto com suporte para 25 idiomas) e MAI-Voz-1 (um modelo de geração de áudio). Menos de um mês depois, a Microsoft lançou uma variante de produção otimizada.

Essa cadência sugere o Equipe de Superinteligência MAI – o grupo de pesquisa liderado por Mustafa Suleyman, CEO da Microsoft AI, que foi formado em novembro de 2025 – está operando mais como uma startup enviando produtos iterativos do que como um laboratório de pesquisa corporativo tradicional publicando artigos. Quando Suleyman escreveu em seu weblog de 2 de abril que a equipe estava “construindo IA Humanista” com foco em “otimizar a forma como as pessoas realmente se comunicam, treinando para uso prático”, ele parece ter dito isso literalmente: os modelos não são apenas enviados, eles são enviados com rapidez suficiente para ter roteiros de produtos.

A recepção precoce de MAI-Imagem-2 tem sido notavelmente positivo. Descriptografar relatado em seu revisão prática que o modelo já havia alcançado a 3ª posição no Tabela de classificação Arena.ai para geração de imagens, atrás apenas do Google e OpenAI. O revisor do Decrypt observou que o fotorrealismo do modelo period “uma força actual” e que sua renderização de texto period “um destaque legítimo” que “lidava com tipografia complexa com muito mais consistência do que esperávamos”. A revisão também constatou que, em algumas comparações diretas, MAI-Imagem-2 superou o GPT-Picture da OpenAI em qualidade de imagem e renderização de texto, apesar de estar abaixo dele na tabela de classificação – uma observação que ressalta como as classificações de benchmark nem sempre capturam a utilidade do mundo actual.

Dito isso, o modelo authentic foi enviado com restrições significativas que o Decrypt sinalizou: um resfriamento de 30 segundos entre gerações, um limite diário de 15 imagens na interface nativa, saída de proporção de apenas 1:1, sem recursos de imagem para imagem e filtragem de conteúdo agressiva que bloqueou até mesmo prompts criativos inócuos. Se MAI-Image-2-Eficiente herda ou relaxa qualquer uma dessas limitações não abordadas no anúncio de hoje, e os clientes corporativos que acessam o modelo por meio da API Foundry provavelmente enfrentarão restrições diferentes dos usuários do playground.

Por dentro do desgastado relacionamento Microsoft-OpenAI que tornou os modelos internos inevitáveis

O lançamento de hoje não pode ser entendido isoladamente. Chega num momento em que a relação entre Microsoft e OpenAI – que já foi a parceria definidora da period da IA ​​generativa – está visivelmente desgastada.

Ainda ontem, a CNBC informou que a recém-nomeada diretora de receitas da OpenAI, Denise Dresser, enviou um memorando interno para a equipe afirmando explicitamente que a parceria com a Microsoft “também limitou a nossa capacidade de atender as empresas onde elas estão”. O memorando supostamente elogiou a nova aliança da OpenAI com a Amazon Internet Companies e a plataforma Bedrock como um fator-chave de crescimento, descrevendo a demanda de entrada dos clientes como “francamente surpreendente” desde que a parceria foi anunciada no ultimate de fevereiro. A Microsoft adicionou OpenAI à sua lista de concorrentes no seu relatório anual em meados de 2024. Enquanto isso, a OpenAI diversificou sua infraestrutura em nuvem em CoreWeave, Googlee Oráculoreduzindo sua dependência do Microsoft Azure.

O Família de modelos MAI é a expressão mais tangível do lado da Microsoft nesse desacoplamento estratégico. Quando a Microsoft consegue gerar imagens com qualidade de produção com seu próprio modelo a US$ 19,50 por milhão de tokens de saída, o cálculo para continuar a licenciar os modelos de imagem da OpenAI – e pagar à OpenAI uma parte da receita resultante – muda drasticamente. Cada modelo MAI que atinge a qualidade de produção é um merchandise de linha que a Microsoft pode potencialmente transferir do balanço patrimonial da OpenAI para o seu próprio.

A infra-estrutura organizacional para apoiar esta mudança já está instalada. No dia 17 de março, conforme divulgado em comunicados divulgados no Blog oficial da Microsofto CEO Satya Nadella anunciou uma reorganização abrangente que unificou os esforços do Copilot comercial e de consumo da empresa sob uma única equipe de liderança, com Jacob Andreou elevado a EVP do Copilot reportando-se diretamente a Nadella. De forma crítica, a reorganização também reorientou o papel de Suleyman. Como Nadella escreveu em sua mensagem aos funcionários, a empresa está “duplicando nossa missão de superinteligência com talento e computação para construir modelos que tenham impacto actual no produto, em termos de avaliações, redução de CPV, bem como avanço da fronteira”. Essa frase — “redução do CPV” — é linguagem corporativa para reduzir o custo dos produtos vendidos e aponta directamente para a motivação económica por detrás de modelos como o MAI-Picture-2-Environment friendly. Cada dólar que a Microsoft economiza usando seus próprios modelos, em vez de licenciar parceiros, flui diretamente para a margem bruta.

Por que a geração rápida e barata de imagens é o ingrediente secreto para o futuro da IA ​​agente da Microsoft

Há mais uma dimensão que torna o lançamento de hoje estrategicamente significativo, e pode ser a mais importante: a ascensão dos agentes de IA.

TechCrunch relatado ontem que a Microsoft está testando maneiras de integrar recursos semelhantes ao OpenClaw ao Microsoft 365 Copilot, construindo um agente sempre ativo que pode executar tarefas de várias etapas por longos períodos. A empresa também lançou o Copilot Cowork (um agente que executa ações nos aplicativos Microsoft 365), o Copilot Duties (um agente para concluir tarefas de produtividade pessoal em várias etapas) e o Agent 365 (referenciado no memorando de reorganização de março de Nadella). Espera-se que a Microsoft apresente esses recursos de agente em sua conferência Construct em junho.

Em um mundo agente – onde os sistemas de IA não apenas respondem a perguntas, mas executam fluxos de trabalho complexos de forma autônoma – a geração de imagens se torna um produto primitivo que os agentes chamam de forma programática, e não um produto independente com o qual os usuários interagem manualmente. Um agente empresarial que está construindo uma campanha de advertising pode precisar gerar dezenas de imagens de produtos, criar ativos de mídia social, produzir gráficos de apresentação e repetir conceitos de design, tudo sem intervenção humana em cada etapa. A economia desse fluxo de trabalho é governada inteiramente pelo preço e pela latência por token, que é exatamente o que o MAI-Picture-2-Environment friendly otimiza. Se a visão da Microsoft para o Copilot envolve agentes que geram imagens como uma subtarefa de rotina em fluxos de trabalho maiores, esses agentes precisam de geração de imagens que seja rápida o suficiente para não criar gargalos e barata o suficiente para não explodir as projeções de custos quando chamados milhares de vezes por dia. A melhoria de 4x na eficiência e o corte de 41% no preço não são apenas bons números de advertising – são requisitos arquitetônicos para o futuro agente em que a Microsoft está apostando a empresa.

O que a Microsoft ainda não respondeu sobre seu novo modelo de imagem

Várias questões importantes permanecem sem resposta no anúncio de hoje. A Microsoft não revelou se MAI-Image-2-Eficiente resolve as limitações de proporção e filtragem agressiva de conteúdo que os revisores sinalizaram no modelo authentic. A empresa também não especificou se as compensações entre qualidade e velocidade envolvem degradação visível em prompts complexos – o anúncio descreve “qualidade pronta para produção” e “qualidade principal” de forma intercambiável, mas modelos de destilação de qualquer tipo normalmente envolvem alguma concessão de qualidade.

As notas de rodapé no comunicado de imprensa também revelam as condições restritas sob as quais as reivindicações de benchmark foram testadas: os números de eficiência foram medidos no NVIDIA H100 em 1024×1024 com “tamanhos de lote otimizados e metas de latência correspondentes”, e as comparações de latência com os modelos do Google foram realizadas em p50 (mediana) em vez de p95 ou p99, o que capturaria o pior desempenho. Os clientes corporativos que executam diversas cargas de trabalho em diversos níveis de simultaneidade podem ver resultados diferentes. O MAI Playground está atualmente disponível apenas em mercados selecionados, incluindo os EUA, com disponibilidade na UE listada como “em breve”. A integração do copiloto está em andamento, mas não está completa. E a API corporativa por meio do Foundry, embora ativa, ainda está em implantação inicial.

Mas a trajetória é inconfundível. Em menos de cinco meses desde a Equipe de Superinteligência MAI foi anunciado, a Microsoft lançou um modelo de imagem principaltrês modelos de fundação adicionais e agora um variante de produção com custo otimizado – tudo isso enquanto reorganiza toda a sua organização Copilot, navegando em um relacionamento fraturado com seu parceiro de IA mais importante e estabelecendo as bases para recursos de IA de agência que poderiam redefinir a produtividade empresarial. Se tudo isso é rápido o suficiente para aproveitar o impulso da Anthropic, conter a tendência da OpenAI em direção à Amazon e justificar um preço-alvo de US$ 600 é a questão de centenas de bilhões de dólares. Mas para uma empresa que passou os primeiros dois anos da period da IA ​​generativa revendendo principalmente a tecnologia de terceiros, a Microsoft está agora a fazer algo que não fazia há muito tempo na IA: enviar o seu próprio trabalho, no seu próprio calendário, ao seu próprio preço – e desafiar o mercado a acompanhá-lo.

fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui