A Microsoft está expandindo sua lista de modelos internos de IA, lançando um novo sistema de fala para texto e disponibilizando amplamente dois modelos existentes para desenvolvedores pela primeira vez.
As medidas da Microsoft AI (MAI) fazem parte de um esforço mais amplo da empresa para expandir as suas capacidades proprietárias de IA para além da sua parceria com a OpenAI, dando à Microsoft mais controlo sobre o seu próprio destino na competição contra o Google, Amazon e outros.
Microsoft anunciado MAI-Transscribe-1 na quinta-feira, um modelo de fala para texto que afirma ser o mais preciso disponível atualmente. A empresa também lançou seus modelos existentes de geração de voz e imagem, conhecidos como MAI-Voice-1 e MAI-Picture-2, para amplo uso comercial.
É o primeiro grande lançamento de modelo da Microsoft desde uma reorganização de março, anunciada pelo CEO Satya Nadella, na qual o CEO da Microsoft AI, Mustafa Suleyman, deixou de lado a supervisão diária do Copilot para se concentrar no desenvolvimento de modelos de fronteira e na superinteligência.
Suleiman disse ao The Verge que o modelo de transcrição funciona com “metade do custo de GPU dos outros modelos de última geração”. Ele disse ao VentureBeat que o modelo foi construído por uma equipe de apenas 10 pessoas e que a Microsoft planeja eventualmente construir um modelo de linguagem de grande porte para ser “completamente independente”, se necessário.
A Microsoft também contratou recentemente o ex-CEO do Allen Institute, Ali Farhadi, e outros importantes pesquisadores de IA do instituto com sede em Seattle para reforçar ainda mais a equipe de Suleyman, conforme relatado pelo GeekWire na semana passada.
MAI-Transscribe-1 foi projetado para lidar com condições barulhentas do mundo actual, como name facilities e salas de conferência, e a Microsoft afirma que está testando integrações com Copilot e Groups. A Microsoft afirma que oferece o melhor preço-desempenho de qualquer grande provedor de nuvem, competindo diretamente com o Whisper da OpenAI e o Gemini do Google no benchmark FLEURS.
Em uma postagem no blogSuleyman chamou o modelo de “não apenas o mais preciso, mas também extremamente rápido”.
MAI-Voice-1 gera fala com som pure e agora permite que os desenvolvedores criem vozes personalizadas a partir de pequenos trechos de amostra de áudio. MAI-Picture-2 está entre os três primeiros no rating de geração de imagens Area.ai e está sendo lançado no Bing e PowerPoint.
Todos os três estão disponíveis na plataforma de IA do desenvolvedor Microsoft Foundry e no MAI Playground.













