A OpenAI disse na quinta-feira que sua API agora incluirá uma série de novos recursos de inteligência de voz projetados para ajudar os desenvolvedores a criar aplicativos que podem falar, transcrever e traduzir conversas com os usuários.
A empresa novo GPT‑Realtime‑2 é outro modelo de voz, construído para criar uma simulação vocal realista que pode conversar com os usuários. No entanto, ao contrário do seu antecessor (GPT-Realtime-1.5), este é construído com o raciocínio da classe GPT‑5 que a OpenAI afirma ter sido criado para lidar com solicitações mais complicadas dos usuários.
A empresa também está lançando o GPT‑Realtime‑Translate que, ao que parece, foi projetado para fornecer serviços de tradução em tempo actual que “acompanham o ritmo” do usuário, em termos de conversação. O recurso inclui mais de 70 idiomas de entrada (isto é, os idiomas que ele pode compreender) e 13 idiomas de saída (os idiomas que ele transmite ao falante).
Por fim, a empresa também lançou um novo recurso de transcrição, GPT-Realtime-Whisper, que oferece aos usuários recursos de fala para texto ao vivo que são capturados à medida que as interações ocorrem.
“Juntos, os modelos que estamos lançando movem o áudio em tempo actual de uma simples chamada e resposta para interfaces de voz que podem realmente funcionar: ouvir, raciocinar, traduzir, transcrever e agir à medida que uma conversa se desenrola”, disse a empresa.
Para quem essas atualizações serão boas? As empresas que desejam expandir as capacidades de atendimento ao cliente são um alvo óbvio. No entanto, a OpenAI também observa que seus novos recursos ajudarão em uma ampla gama de áreas, incluindo educação, mídia, eventos e plataformas de criadores, entre outras.
Por mais úteis que estas ferramentas pareçam do ponto de vista empresarial, também parece plausível que possam ser mal utilizadas. A empresa disse que construiu barreiras de proteção para impedir que seus novos recursos sejam abusados para criar spam, fraude ou outras formas de abuso on-line. Certos gatilhos foram incorporados ao sistema para que “as conversas possam ser interrompidas se forem detectadas como violação de nossas diretrizes de conteúdo prejudicial”, disse OpenAI.
Evento Techcrunch
São Francisco, Califórnia
|
13 a 15 de outubro de 2026
Todos os novos modelos de voz estão incluídos em API em tempo real da OpenAI. Translate e Whisper são cobrados por minuto, enquanto GPT-Realtime-2 é cobrado por consumo de token.
Quando você compra por meio de hyperlinks em nossos artigos, podemos ganhar uma pequena comissão. Isso não afeta nossa independência editorial.












