A Microsoft está apostando em modelos de IA que não são modelos de linguagem extensa. A empresa anunciou na quinta-feira que está lançando três novos modelos: novos modelos para transcrição de voz e texto e a segunda geração de seu modelo interno de imagem.
Os modelos de transcrição de voz e texto são os primeiros desse tipo da Microsoft. O modelo de transcrição pode traduzir gravações em texto em 25 idiomas diferentes. Foi construído para legendagem de vídeoreunindo agentes de transcrição e voz. O modelo de voz pode criar gravações de áudio de até 60 segundos de duração. A empresa afirma que seu modelo de imagem de segunda geração tem uma velocidade de geração mais rápida e representações mais realistas, melhorando seu modelo anterior. Eles estão disponíveis agora no Foundry da Microsoft e no playground MAI, com planos futuros de trazer o MAI-Picture-2 para o Bing e o PowerPoint. Os desenvolvedores podem conferir informações sobre preços aqui.
Esses novos modelos são um sinal claro de que a Microsoft está buscando expandir suas ofertas no mercado de IA. O Copilot da Microsoft é um dos chatbots mais populares para empresas, especialmente aquelas que já usam o pacote Workplace 360 da Microsoft e o serviço de nuvem Azure. Além do agora desatualizado modelo de imagem authentic, a Microsoft concentrou-se principalmente em modelos baseados em texto, tentando distinguir-se entre os seus muitos concorrentes como uma opção segura e empresarial. Suas mais novas ferramentas de IA, Copiloto Cowork e Saúde do Copilotosão prova disso.
Os modelos também são um lembrete de que a Microsoft, como uma empresa de tecnologia legada, tem dinheiro e computação para gastar nesses tipos de “missões secundárias“que mesmo startups de bilhões de dólares como a OpenAI nem sempre podem se dar ao luxo de fazer. Na semana passada, a OpenAI confirmou que será descontinuando seu aplicativo de vídeo Sora AIcitando que se concentrará novamente nas atividades principais. A indústria de IA em 2026 tem como objetivo provar que suas ferramentas são úteis no native de trabalho, especialmente com Código Claude da Antrópico ultrapassando a concorrência.
A mídia generativa, como os modelos que alimentam a geração de imagens e vídeos por IA, exige muita computação e energia para administrar, que poderia ser gasto em outro lugar. O Google, como outra empresa de tecnologia legada com bilhões de seu orçamento alocado para pesquisa de IA, indicou esta semana que não desistirá da mídia generativa, mas tentará tornar os modelos mais eficientes em termos de custo e energia, como acontece com seu novo Modelo de vídeo Veo 3.1 Lite.












