Início Tecnologia OpenAI está cansado de ver todos aqueles vídeos de pessoas fazendo palhaçadas...

OpenAI está cansado de ver todos aqueles vídeos de pessoas fazendo palhaçadas em seu modo de voz

4
0

No início deste ano, Sam Altman foi confrontado diretamente com um vídeo que se tornou uma tendência viral: pessoas exibindo o deficiências significativas do modelo de voz da OpenAI. Parece que ele não gostou muito disso, porque a OpenAI está tomando medidas para salvar Altman de constrangimentos futuros. Na quinta-feira, a empresa anunciou três novos modelos de voz destinados a abrir a tecnologia para desenvolvedores que possam fazer coisas inovadoras, como programar um temporizador funcional.

Segundo a empresa, é lançando GPT-Realtime-2seu primeiro modelo de voz com “raciocínio de classe GPT-5” que supostamente pode lidar com prompts difíceis e manter conversas melhor do que seus antecessores. Ela também introduziu o GPT-Realtime-Translate, que afirma poder traduzir a fala de mais de 70 idiomas de entrada em 13 idiomas de saída, enquanto “mantém o ritmo do locutor”. O modelo remaining, GPT-Realtime-Whisper, destina-se à transcrição de fala para texto ao vivo.

“A voz está se tornando uma das formas mais naturais para as pessoas usarem software program”, afirmou a empresa em comunicado. “Mas construir produtos de voz úteis exige mais do que uma troca rápida de turnos ou uma voz que soe pure. Um agente de voz precisa entender o que alguém quer dizer, acompanhar o contexto, recuperar-se quando uma solicitação muda, usar ferramentas enquanto a conversa continua e responder de uma forma que pareça apropriada ao momento.”

Os desafios que a construção de modelos de IA apresentou tornaram-se objeto de muitos memes ao longo do último ano. Usuário do TikTok @huskistakentambém conhecido como Husk, é talvez o mestre do gênero, regularmente descobrindo falhas nas capacidades dos modelos de voz anteriores da OpenAI – embora, em vez de fazer isso como um purple teamer evitando que problemas cheguem ao produto remaining, ele principalmente incentiva a OpenAI a fazer mudanças por meio de constrangimento.

Foi um dos vídeos de Husk que chegou a Altman no início deste ano. O CEO foi obrigado a observar o modelo de voz do ChatGPT mentir muito obviamente sobre o início de um cronômetro. Husk pedia ao modelo para cronometrar quanto tempo ele levou para correr uma milha e imediatamente dizia que havia terminado, apenas para o modelo afirmar que completou sua milha em 10 minutos. Altman, visivelmente irritado com a coisa toda, disse que “talvez mais um ano antes que algo assim funcionasse bem”.

Os novos modelos pretendem acelerar soluções para este problema confuso. De acordo com o comunicado de imprensa da OpenAI, os novos lançamentos são adeptos da “voz para ação, onde as pessoas podem descrever o que precisam e o sistema pode raciocinar através da solicitação, usar ferramentas e concluir a tarefa”. Eles fornecem um exemplo como pedir à Zillow para “encontrar casas dentro do meu BuyAbility, evitar ruas movimentadas e agendar um passeio para sábado”. Isso certamente parece um pouco mais avançado do que “iniciar um cronômetro”, mas é lógico que se enquadraria na mesma funcionalidade.

O verdadeiro teste dos novos modelos da OpenAI serão os jailbreakers como o Husk. No início deste ano, o ex-fundador da OpenAI Andrej Karpathy argumentou que as pessoas simplesmente não atualizaram seus antecedentes sobre os modelos de IA, que ele argumentou que estão avançando o tempo todo de maneiras que não atraem a mesma atenção que as vozes que mexem com o modelo de voz. Mas esses vídeos não são antigos – o Husk envia novos regularmente. Se ele parar de postar com o lançamento deste novo modelo, será uma vitória para os verdadeiros crentes como Karpathy.



fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui