Início Tecnologia OpenAI traz raciocínio de classe GPT-5 para voz em tempo actual –...

Tecnologia

OpenAI traz raciocínio de classe GPT-5 para voz em tempo actual – e muda o que os agentes de voz podem realmente orquestrar

Por

9 Maio 2026

Os agentes de voz têm sido caros de operar e difíceis de orquestrar, não porque os modelos não consigam lidar com conversas, mas porque os limites de contexto forçaram as empresas a criar redefinições de sessão, compactação de estado e camadas de reconstrução em cada implantação. Os três novos modelos de voz da OpenAI foram projetados para reduzir essa sobrecarga e mudam a forma como os engenheiros podem pensar sobre a integração da voz em uma pilha maior de agentes.

GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper integram áudio em tempo actual na pilha de gerenciamento de modelo como primitivas de orquestração discretas – separando o raciocínio conversacional, a tradução e a transcrição em componentes especializados, em vez de agrupá-los em um único produto de voz.

A empresa disse em uma postagem no blog que o Realtime-2 é seu primeiro modelo de voz “com raciocínio de classe GPT-5” e pode lidar com solicitações difíceis e manter as conversas fluindo naturalmente. O Realtime-Translate entende mais de 70 idiomas e os traduz para outros 13 no ritmo do locutor, e o Realtime-Whisper é seu novo modelo de transcrição de fala para texto.

Essas três ações não ficam mais dentro de uma única pilha ou modelo. O GPT-Realtime-2 poderia tecnicamente lidar com a transcrição, mas o OpenAI está encaminhando tarefas distintas para modelos especializados: Realtime-Translate para fala multilíngue e Realtime-Whisper para transcrição. As empresas podem atribuir cada tarefa ao modelo apropriado, em vez de encaminhar tudo através de um sistema de voz único e abrangente.

Os novos modelos OpenAI competem com os modelos Voxtral da Mistral, que também separam a transcrição e visam casos de uso corporativo.

O que as empresas devem fazer

Mais empresas estão percebendo o valor dos agentes de voz agora que mais pessoas estão se sentindo confortáveis conversando com um agente de IA, e também devido à riqueza de dados das interações de voz com os clientes.

As organizações que avaliam esses modelos precisarão considerar sua arquitetura de orquestração, não apenas a qualidade do modelo – especificamente, se sua pilha pode rotear tarefas de voz discretas para modelos especializados e gerenciar o estado em uma janela de contexto de 128 mil tokens.

fonte

OpenAI traz raciocínio de classe GPT-5 para voz em tempo actual – e muda o que os agentes de voz podem realmente orquestrar

O que as empresas devem fazer

DEIXE UMA RESPOSTA Cancelar resposta

Mais recente

Paramount e Warner Music se unem para fazer filmes mais focados...

Morning Digest: Suvendu Adhikari definido para se tornar o primeiro BJP...

O YouTuber Ethan Klein capturou uma captura de tela da história...

Punjab é pior do que Bengala Ocidental sob o governo da...

Os trabalhadores demitidos da Oracle tentaram negociar melhores indenizações. A Oráculo...

Alívio de verão para os passageiros, GVMC cria sombra verde no...

Tony Maudsley, de Coronation Road, revela primeira passagem pela novela ITV...

Este novo museu em Shivamogga educa as pessoas sobre abelhas e...

O Instagram perde hoje a criptografia de mensagens ponta a ponta....

“Pare de destruir vidas inocentes”: Laura Loomer irrompe em Candace Owens...