Para a maioria das empresas, um vídeo de treinamento de 90 segundos ou um explicador de produto nunca foi uma tarefa fácil. Significa um briefing bem planejado, uma equipe de filmagem interna ou um fornecedor externo, uma filmagem, uma edição e uma rodada de revisões. Altere uma linha do texto na tela devido a uma revisão authorized e toda a cadeia será executada novamente. O custo e os longos prazos são os motivos pelos quais tantos vídeos internos nunca são feitos.
Essa equação é o que o Google pretende reescrever Gêmeos Omni Flasho primeiro modelo de sua nova família “Omni”, agora sendo lançado para desenvolvedores e clientes corporativos por meio de uma API após sua estreia para consumidores no I/O 2026. O Google enquadra a ambição da família como criar qualquer coisa “a partir de qualquer entrada”, começando com vídeo. Mas a interação do título não é apenas um immediate de texto para vídeo mais nítido. É a capacidade de editar um clipe finalizado por meio de uma conversa.
Quando o modelo foi lançado em maio, a análise empresarial da VentureBeat apontou o problema: sem interface programática, o Omni period uma ferramenta de consumo e prosumer, e não de produção. Este lançamento da API muda isso. Ele coloca a edição conversacional diante das equipes de advertising e de aprendizado e desenvolvimento que produzem a maioria dos vídeos em uma organização.
A proposta: um pipeline de cinco ferramentas se transforma em uma única conversa
Até agora, muitas equipes têm montado vídeos de IA da maneira mais difícil, reunindo um LLM para um roteiro, um modelo de texto para imagem, um modelo de imagem para vídeo, uma ferramenta separada de sincronização labial e um gerador de voz, cada um com seu próprio contrato, faturamento e caminho de dados.
O argumento empresarial da Omni é a unificação: um modelo que pega texto, imagens e vídeo e retorna um clipe finalizado com áudio sincronizado.
Esse issue de simplicidade é a parte que os decisores devem pesar primeiro. Reunir várias ferramentas pontuais em um modelo significa menos fornecedores e um único native para monitorar a produção e aplicar regras de tratamento de dados. Para uma organização que evitou o vídeo generativo porque juntar as ferramentas não valia a pena, a equação muda.
Com a edição conversacional, cada instrução se baseia na anterior, para que um profissional de advertising possa reacender uma foto de produto, reformulá-la ou mudar o guarda-roupa sem se regenerar do zero e perder as peças que já funcionaram. É a diferença entre agendar uma refilmagem e enviar uma nota.
Referências multimodais e um motor físico para ativos de marca
Omni aceita muito mais do que um immediate de texto. Juntamente com as palavras que descrevem o que você deseja, você pode alimentá-lo com várias imagens de referência e videoclipes existentes, e isso traz essas especificações para o resultado. Entregue-lhe uma fotografia de um objeto específico, peça ao modelo para colocar esse objeto em uma cena e ele reproduzirá a cor e a forma aproximada da coisa actual, em vez de inventar um substituto genérico. Embora a correspondência possa não ser perfeita em pixels, ela é próxima o suficiente para ser reconhecível. Esse controle orientado por referência é o que torna o recurso comercialmente interessante: uma foto de produto, um logotipo de marca ou um native específico pode ser inserido como um ingrediente, em vez de ser descrito em um immediate e esperado.
Dois dos quatro pontos fortes destacados do Google referem-se diretamente ao trabalho empresarial. O primeiro é um modelo mundial, a compreensão do sistema sobre como as cenas físicas se comportam. Adicione chuva leve e poças a uma cena existente e ela renderizará reflexos de pessoas e objetos no pavimento molhado, o tipo de consistência física que separa a filmagem actual do vídeo óbvio de IA.
A segunda é a inserção de texto e logotipo. Aponte-o para uma cena cheia de sinalização e você poderá reescrever essas placas em outro idioma, ou para uma marca de sua escolha, e até inserir o logotipo de uma empresa. Os resultados não são perfeitos: nos testes, o rastreamento de sinais em cenas complexas nem sempre foi perfeito e parte do texto voltou ao idioma authentic entre os quadros. Para vídeos de treinamento que precisam de rótulos na tela ou anúncios que precisam de um logotipo colocado na cena, é um recurso que vale a pena dar uma olhada mais de perto e um lembrete de que o resultado ainda precisa de uma revisão humana antes de ser enviado.
A API de interações e onde os limites ainda existem
Nos bastidores, isso é executado na nova API de interações do Google, uma interface com estado criada para tarefas multiturno, em vez de bate-papo aberto. Cada turno carrega o vídeo anterior e suas referências, o que permite que as edições se acumulem de forma coerente. Os desenvolvedores podem encadear gerações. Eles podem produzir um clipe, editar o gato em um gatinho puma, remodelar um vídeo para um visible retrô de 8 bits e depois para um visible aquarela, e armazenar cada versão para ramificar posteriormente.
As restrições são reais e vale a pena orçamentá-las. Os clipes atualmente têm limite de 10 segundos, de acordo com o modelo cartão modelo publicado. Para tornar algo mais longo, você gera pedaços e os edita juntos. A filmagem enviada também pode ser editada, desde que dure 10 segundos ou menos e o usuário detenha os direitos sobre ela. O próprio cartão modelo do Google é sincero ao afirmar que manter a consistência nas edições e renderizar texto preciso permanece como um problema em aberto.
Guarda-corpos, marca d’água e a linha que o Google não cruzará
Para um CISO, as demonstrações importam menos do que a origem do trabalho enviado junto com o modelo. Cada clipe Omni carrega a marca d’água SynthID do Google, o Google está estendendo as credenciais de conteúdo C2PA em suas ferramentas generativas e lançou uma API de detecção de conteúdo de IA que sinaliza mídia gerada por IA, tanto do Google quanto de outros fornecedores.
O Google também traçou uma linha deliberada. A modelo não tira uma foto de uma pessoa mais um clipe de áudio e sincroniza os lábios com a fala, um movimento explícito para limitar deepfakes. No entanto, será necessária uma gravação de alguém falando e traduzida para outro idioma, um caminho útil para localizar conteúdo de treinamento international. Para as empresas regulamentadas, essas restrições e a origem incorporada são características e não atritos.
Transformação VB · 14 a 15 de julho · Menlo Park · Inferência e infraestrutura de IA
A GM obteve um salto de 300% nas PRs mescladas ao reestruturar os agentes. Aqui está o que eles construíram.
O curso de infraestrutura no Rework abrange geração de vídeo em tempo actual, pilhas de raciocínio máquina a máquina e o que realmente é necessário para executar agentes em escala empresarial.
Veja a agenda completa →
Os números: barato, apenas 720p e (preliminarmente) classificado em primeiro lugar
O preço chegou junto com a API e é agressivo. Omni Flash custa US$ 0,10 por segundo de vídeo gerado em 720p, o que coloca um clipe de dez segundos em cerca de um dólar. Isso corresponde ao Veo 3.1 Quick na mesma resolução, roda o dobro do Veo 3.1 Lite e reduz o Veo 3.1 padrão em três quartos.
|
Por segundo (USD) |
Gêmeos Omni Flash |
Veo 3.1 Lite |
Veo 3.1 rápido |
Veo 3.1 |
|
720p |
US$ 0,10 |
US$ 0,05 |
US$ 0,10 |
US$ 0,40 |
|
1080p |
n / D |
US$ 0,08 |
US$ 0,12 |
US$ 0,40 |
|
4K |
n / D |
n / D |
US$ 0,30 |
US$ 0,60 |
A tabela também expõe o problema. Omni Flash gera apenas 720p. Não há opção de 1080p ou 4K, enquanto os níveis Veo aumentam até 4K. Para treinamento interno e a maioria dos vídeos sociais, 720p é adequado. Para trabalhos de marcas premium destinados a uma tela grande, é um teto actual, e a razão pela qual o Veo 3.1 ainda tem um emprego
Os clipes duram de 3 a ten segundos em 720p nativo, em paisagem (16:9) ou retrato (9:16). Como entradas de referência o modelo aceita até sete imagens e até três videoclipes de três segundos ou menos. Ele ainda não aceita áudio como entrada, embora gere áudio junto com o vídeo que produz. A saída é MP4 padrão e cada clipe vem com marca d’água SynthID e credenciais C2PA integradas.
Na qualidade, o sinal inicial é forte. Na Textual content-to-Video Enviornment da LMArena, uma tabela de classificação onde as pessoas votam nos resultados frente a frente de modelos concorrentes, Omni Flash ficou em primeiro lugar com uma pontuação de 1527.
O que isso significa para os orçamentos e o que ainda falta
Com o preço actual em mãos, a história da iteração se torna concreta. Cada edição de conversação é uma nova geração pela qual você paga, então uma sessão com muitas edições ainda soma, cerca de um dólar para cada passagem de dez segundos em 720p. O que o modelo stateful muda não é o custo de uma edição, é o número de edições desperdiçadas: como o contexto atravessa turnos, essas gerações vão para o refinamento de uma tomada que funciona principalmente, em vez de reiniciar a partir de um immediate em branco e esperar que a próxima tentativa chegue.
Omni não está sozinha neste campo. O Veo 3.1 continua sendo a opção de nível de produção do Google quando você precisa de uma resolução mais alta, e os rivais da Bytedance, Alibaba e OpenAI estão todos perseguindo os mesmos orçamentos. O que Omni adiciona é a própria capacidade de edição: a capacidade de tratar um vídeo como um documento vivo em vez de uma renderização única.













