No início deste ano, Sam Altman foi confrontado diretamente com um vídeo que se tornou uma tendência viral: pessoas exibindo o deficiências significativas do modelo de voz da OpenAI. Parece que ele não gostou muito disso, porque a OpenAI está tomando medidas para salvar Altman de constrangimentos futuros. Na quinta-feira, a empresa anunciou três novos modelos de voz destinados a abrir a tecnologia para desenvolvedores que possam fazer coisas inovadoras, como programar um temporizador funcional.
Segundo a empresa, é lançando GPT-Realtime-2seu primeiro modelo de voz com “raciocínio de classe GPT-5” que supostamente pode lidar com prompts difíceis e manter conversas melhor do que seus antecessores. Ela também introduziu o GPT-Realtime-Translate, que afirma poder traduzir a fala de mais de 70 idiomas de entrada em 13 idiomas de saída, enquanto “mantém o ritmo do locutor”. O modelo remaining, GPT-Realtime-Whisper, destina-se à transcrição de fala para texto ao vivo.
“A voz está se tornando uma das formas mais naturais para as pessoas usarem software program”, afirmou a empresa em comunicado. “Mas construir produtos de voz úteis exige mais do que uma troca rápida de turnos ou uma voz que soe pure. Um agente de voz precisa entender o que alguém quer dizer, acompanhar o contexto, recuperar-se quando uma solicitação muda, usar ferramentas enquanto a conversa continua e responder de uma forma que pareça apropriada ao momento.”
Os desafios que a construção de modelos de IA apresentou tornaram-se objeto de muitos memes ao longo do último ano. Usuário do TikTok @huskistakentambém conhecido como Husk, é talvez o mestre do gênero, regularmente descobrindo falhas nas capacidades dos modelos de voz anteriores da OpenAI – embora, em vez de fazer isso como um purple teamer evitando que problemas cheguem ao produto remaining, ele principalmente incentiva a OpenAI a fazer mudanças por meio de constrangimento.
Foi um dos vídeos de Husk que chegou a Altman no início deste ano. O CEO foi obrigado a observar o modelo de voz do ChatGPT mentir muito obviamente sobre o início de um cronômetro. Husk pedia ao modelo para cronometrar quanto tempo ele levou para correr uma milha e imediatamente dizia que havia terminado, apenas para o modelo afirmar que completou sua milha em 10 minutos. Altman, visivelmente irritado com a coisa toda, disse que “talvez mais um ano antes que algo assim funcionasse bem”.
Os novos modelos pretendem acelerar soluções para este problema confuso. De acordo com o comunicado de imprensa da OpenAI, os novos lançamentos são adeptos da “voz para ação, onde as pessoas podem descrever o que precisam e o sistema pode raciocinar através da solicitação, usar ferramentas e concluir a tarefa”. Eles fornecem um exemplo como pedir à Zillow para “encontrar casas dentro do meu BuyAbility, evitar ruas movimentadas e agendar um passeio para sábado”. Isso certamente parece um pouco mais avançado do que “iniciar um cronômetro”, mas é lógico que se enquadraria na mesma funcionalidade.
O verdadeiro teste dos novos modelos da OpenAI serão os jailbreakers como o Husk. No início deste ano, o ex-fundador da OpenAI Andrej Karpathy argumentou que as pessoas simplesmente não atualizaram seus antecedentes sobre os modelos de IA, que ele argumentou que estão avançando o tempo todo de maneiras que não atraem a mesma atenção que as vozes que mexem com o modelo de voz. Mas esses vídeos não são antigos – o Husk envia novos regularmente. Se ele parar de postar com o lançamento deste novo modelo, será uma vitória para os verdadeiros crentes como Karpathy.











