A nova IA de voz da OpenAI pode ouvir, pensar e responder em mais de 70 idiomas

Por

8 Maio 2026

OpenAI tem lançou três novos modelos de áudio em sua API em tempo actual, e eles são um grande negócio para qualquer pessoa que crie aplicativos com tecnologia de voz. Os três modelos são GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper.

Juntos, eles movem a IA de voz além de simples respostas de ida e volta em direção a algo que pode entender você, agir e acompanhar uma conversa actual.

Se a demonstração deles servir de referência, acabamos de ver a próxima evolução na forma como os modelos de IA de voz funcionam.

Então, o que esses modelos podem realmente fazer?

GPT-Realtime-2 é a manchete. Ele traz raciocínio de classe GPT-5 para interações de voz ao vivo, o que significa que pode lidar com solicitações mais difíceis sem interromper a conversa.

Ele pode chamar diversas ferramentas simultaneamente e até mesmo narrar o que está fazendo com frases como “verificando sua agenda” ou “deixe-me dar uma olhada nisso”. Ele também possui uma janela de contexto maior de 128 mil tokens, o que significa sessões mais longas e coerentes. Os desenvolvedores podem até ajustar o esforço de raciocínio com base na complexidade da solicitação.

GPT-Realtime-Translate é provavelmente o meu favorito. É o mais próximo que chegamos de ter o Tradutor Common de Star Trek na vida actual. Ele suporta tradução de fala ao vivo em mais de 70 idiomas de entrada e 13 idiomas de saída.

A melhor parte da demonstração foi que mesmo quando uma nova pessoa entrou e falou um idioma diferente, o GPT-Realtime-Translate não teve problemas em traduzir ambos os falantes para o inglês em tempo actual.

Finalmente, há o GPT-Realtime-Whisper. A maioria dos modelos de fala para texto espera que o locutor termine antes de fornecer a tradução completa. Este é um modelo de transcrição de streaming que converte fala em texto enquanto o locutor fala. É útil para legendas ao vivo, notas de reuniões e qualquer fluxo de trabalho com tecnologia de voz em que esperar por uma transcrição não seja uma opção.

Alguém pode usar esses novos modelos de IA de voz?

Atualmente, a OpenAI lançou esses modelos para desenvolvedores. Mas os aplicativos que eles criam afetarão a todos. Por exemplo, um desenvolvedor pode criar um aplicativo tradutor em tempo actual, permitindo que os usuários conversem com pessoas em diferentes idiomas.

Muitas empresas já estão testando esses novos modelos. A Zillow está construindo um assistente de voz que pode pesquisar casas e agendar passeios a partir de uma única solicitação falada. Priceline pode verificar seus voos e hotéis, cancelá-los e reservar novos. O Vimeo está usando-o para transcrição em tempo actual e assim por diante.

O preço começa em US$ 0,017 por minuto para Whisper, US$ 0,034 por minuto para Translate e US$ 32 por 1 milhão de tokens de entrada de áudio para GPT-Realtime-2.

fonte

A nova IA de voz da OpenAI pode ouvir, pensar e responder em mais de 70 idiomas

Então, o que esses modelos podem realmente fazer?

Alguém pode usar esses novos modelos de IA de voz?

DEIXE UMA RESPOSTA Cancelar resposta

Mais recente

Preços do petróleo sobem após EUA e Irã trocarem tiros no...

Mulher morta e vários feridos em colisão de vários veículos em...

AirPods com câmeras supostamente em testes finais na Apple

A reunião privada de Trump e Lula no Salão Oval sinaliza...

‘Eu trabalho com David Attenborough – as pessoas não sabem o...

Terceiro cidadão britânico suspeita de infecção por hantavírus, diz governo do...

O técnico do Lakers, Redick, critica os árbitros depois de perder...

A alegria da mulher etíope com raros quíntuplos após 12 anos...

Chimaev chuta Strickland após conferência de imprensa mordaz do UFC 328

Granderson: O que o público aprendeu desde o primeiro ‘Satan Wears...