A IA que pode ver e compreender o que está acontecendo em um vídeo – especialmente uma transmissão ao vivo – é compreensivelmente um produto atraente para muitas empresas e organizações. Além de atuar como um “vigilante” da segurança de websites e instalações, esse modelo de IA também poderia ser usado para recortar as partes mais interessantes dos vídeos de advertising and marketing e redirecioná-los para redes sociais, identificar inconsistências e gafes nos vídeos e sinalizá-los para remoção, e identificar a linguagem corporal e as ações dos participantes em estudos controlados ou de candidatos que se candidatam a novas funções.
Embora existam alguns modelos de IA que oferecem esse tipo de funcionalidade hoje, ele está longe de ser um recurso convencional. No entanto, a startup Perceptron Inc., fundada há dois anos, está tentando mudar tudo isso. Hoje, anunciou o lançamento de seu principal modelo de raciocínio de análise de vídeo proprietário, Mk1 (abreviação de “Mark One”) a um custo – US$ 0,15 por milhão de entrada de tokens / US$ 1,50 por milhão de saída por meio de sua interface de programação de aplicativos (API) – que é cerca de 80-90% menor do que outros principais rivais proprietários, a saber, Claude Sonnet 4.5 da Anthropic, GPT-5 da OpenAI e Gemini 3.1 Professional do Google.
Liderada pelo cofundador e CEO Armen Aghajanyan, ex-Meta FAIR e Microsoft, a empresa passou 16 meses desenvolvendo uma “receita multimodal” do zero para lidar com as complexidades do mundo físico.
Este lançamento sinaliza uma nova period em que se espera que os modelos compreendam causa e efeito, a dinâmica dos objetos e as leis da física com a mesma fluência que antes aplicavam à gramática.
Usuários interessados e clientes corporativos em potencial podem experimentar por si mesmos em um site de demonstração pública da Perceptron aqui.
Desempenho em benchmarks espaciais e de vídeo
O desempenho do modelo é apoiado por um conjunto de benchmarks padrão do setor focados na compreensão fundamentada.
Em raciocínio espacial (ER Benchmarks), o Mk1 alcançou uma pontuação de 85,1 no EmbSpatialBench, superando o Robotics-ER 1,5 do Google (78,4) e o Q3.5-27B do Alibaba (aproximadamente 84,5).
No RefSpatialBench especializado, a pontuação de 72,4 do Mk1 representa um grande salto sobre concorrentes como GPT-5m (9,0) e Sonnet 4,5 (2,2), destacando uma vantagem significativa na compreensão de expressões referentes.
Os benchmarks de vídeo mostram um domínio semelhante; no EgoSchema “Onerous Subset” – onde a inferência do primeiro e do último quadro é insuficiente – Mk1 obteve pontuação de 41,4, igualando o Q3.5-27B do Alibaba e superando significativamente o Gemini 3.1 Flash-Lite (25,0).
No VSI-Bench, o Mk1 atingiu 88,5, a pontuação mais alta registrada entre os modelos comparados, validando ainda mais sua capacidade de lidar com tarefas reais de raciocínio temporal.
Posicionamento de mercado e fronteira de eficiência
A Perceptron direcionou explicitamente a “Fronteira de Eficiência”, uma métrica que traça pontuações médias em vídeos e benchmarks de raciocínio incorporados em relação ao custo combinado por milhão de tokens.
Dados de benchmarking revelam que o Mk1 ocupa uma posição única: ele iguala ou excede o desempenho de modelos “fronteira” como GPT-5 e Gemini 3.1 Professional, mantendo um perfil de custo mais próximo das versões “Lite” ou “Flash”.
Especificamente, o Perceptron Mk1 custa US$ 0,15 por milhão de tokens de entrada e US$ 1,50 por milhão de tokens de saída. Em comparação, o gráfico “Effectivity Frontier” mostra o GPT-5 com um custo combinado significativamente mais alto (perto de US$ 2,00) e o Gemini 3.1 Professional com aproximadamente US$ 3,00, enquanto o Mk1 fica na marca de custo combinado de US$ 0,30 com pontuações de raciocínio superiores.
Esta estratégia agressiva de preços visa tornar a IA física de ponta acessível para uso industrial em grande escala, em vez de apenas para pesquisa experimental.
Arquitetura e continuidade temporal
O núcleo técnico do Perceptron Mk1 é sua capacidade de processar vídeo nativo em até 2 quadros por segundo (FPS) em uma janela significativa de contexto de token de 32K.
Ao contrário dos modelos tradicionais de linguagem de visão (VLMs) que muitas vezes tratam o vídeo como uma sequência desconexa de imagens estáticas, o Mk1 foi projetado para continuidade temporal.
Essa arquitetura permite que o modelo “observe” fluxos estendidos e mantenha a identidade do objeto mesmo através de oclusões, um requisito crítico para aplicações de robótica e vigilância.
Os desenvolvedores podem consultar o modelo para momentos específicos em um fluxo longo e receber em troca códigos de tempo estruturados, agilizando o processo de recorte de vídeo e detecção de eventos.
Raciocinando com as leis da física
O principal diferencial do Mk1 é sua capacidade de “raciocínio físico”. Perceptron outline isso como uma consciência espacial de alta precisão que permite ao modelo compreender a dinâmica dos objetos e as interações físicas em ambientes do mundo actual.
Por exemplo, o modelo pode analisar uma cena para determinar se uma tacada de basquete foi feita antes ou depois de uma campainha, raciocinando conjuntamente sobre a posição da bola no ar e a leitura em um relógio de arremesso.
Isto requer mais do que apenas reconhecimento de padrões; requer uma compreensão de como os objetos se movem no espaço e no tempo.
O modelo é capaz de apontar e contar com “precisão de pixels” até centenas em cenas densas e complexas. Ele também pode ler medidores e relógios analógicos, que historicamente têm sido difíceis de serem interpretados com alta confiabilidade por sistemas de visão puramente digitais.
Também parece ter um forte conhecimento mundial e histórico geral. Em meu breve teste, carreguei um domínio público antigo filme de construção de arranha-céus na cidade de Nova York datado de 1906 da Biblioteca do Congresso dos EUA, e Mk1 foi capaz não apenas de descrever corretamente o conteúdo da filmagem – incluindo cenas estranhas e atípicas como trabalhadores sendo suspensos por cordas – mas o fez rapidamente e até identificou corretamente an information aproximada (início de 1900) apenas pela aparência da filmagem.
Uma plataforma de desenvolvedor para IA física
Acompanhando o lançamento do modelo está uma plataforma de desenvolvedor expandida projetada para transformar esses recursos de percepção de alto nível em aplicativos funcionais com código mínimo.
O Perceptron SDK, disponível through Python, apresenta diversas funções especializadas, como “Foco”, “Contagem” e “Aprendizagem em contexto”.
O recurso Focus permite que os usuários apliquem zoom e recortem regiões específicas de um quadro automaticamente com base em um immediate de linguagem pure, como detecção e localização de equipamentos de proteção particular person (EPI) em um canteiro de obras. A função Contagem é otimizada para cenas densas, como identificar e apontar para cada filhote de um grupo ou itens individuais de produção.
Além disso, a plataforma suporta aprendizagem contextual, permitindo que os desenvolvedores adaptem o Mk1 a tarefas específicas, fornecendo apenas alguns exemplos, como mostrar a imagem de uma maçã e instruir o modelo a rotular cada instância da Categoria 1 em uma nova cena.
Estratégias de licenciamento e a série Isaac
A Perceptron está empregando uma estratégia dupla para pesos e licenciamento de seus modelos. O carro-chefe Perceptron Mk1 é um modelo de código fechado acessado through API, projetado para desempenho e segurança de nível empresarial.
No entanto, a empresa também mantém a série “Isaac”, que começou com o lançamento do Isaac 0.1 em setembro de 2025como uma alternativa de pesos abertos. Pré-visualização de Isaac 0.2-2blançado em dezembro de 2025, é um modelo de linguagem de visão de 2 bilhões de parâmetros com recursos de raciocínio que está disponível para implantações de borda e de baixa latência.
Embora os pesos dos modelos Isaac estejam abertos na fashionable comunidade de compartilhamento de código de IA Abraçando o rostoa Perceptron oferece licenças comerciais para empresas que exigem controle máximo ou implantação native dos pesos.
Esta abordagem permite à empresa apoiar tanto a comunidade de código aberto como parceiros industriais especializados que necessitam de flexibilidade proprietária. A documentação observa que os modelos Isaac 0.2 são otimizados especificamente para tempo até o primeiro token inferior a 200 ms, tornando-os ideais para dispositivos de borda em tempo actual.
Antecedentes da fundação e foco da Perceptron
Perceptron AI é uma startup de IA física com sede em Bellevue, Washington, fundada por Aghajanyan e Akshat Shrivastava, ambos ex-cientistas pesquisadores do laboratório Fb AI Analysis (FAIR) da Meta.
Os materiais públicos da empresa datam sua fundação em novembro de 2024, enquanto um registro corporativo de Washington da Perceptron.ai Inc. pedido de registro estrangeiro anterior em 9 de outubro de 2024listando Shrivastava e Aghajanyan como governadores.
Nas postagens de lançamento do fundador do closing de 2024, Aghajanyan disse que deixou a Meta depois de quase seis anos e “uniu forças” com Shrivastava para construir IA para o mundo físico, enquanto Shrivastava disse que a empresa cresceu a partir de seu trabalho em eficiência, multimodalidade e novas arquiteturas de modelos.
A fundação parece ter resultado diretamente do trabalho da dupla em modelos de fundação multimodais na Meta. Em maio de 2024, Metapesquisadores publicaram Chameleonuma família de modelos de fusão precoce projetados para compreender e gerar sequências mistas de texto e imagens, trabalho que a Perceptron descreveu mais tarde como parte da linhagem por trás de seus próprios modelos.
Um documento subsequente de julho de 2024, MoMaexplorou o treinamento de fusão precoce mais eficiente para modelos modais mistos e listou Shrivastava e Aghajanyan entre os autores. A tese declarada da Perceptron estende essa direção de pesquisa para “IA física”: modelos que podem processar vídeo do mundo actual e outros fluxos sensoriais para casos de uso como robótica, manufatura, análise geoespacial, segurança e moderação de conteúdo.
Ecossistemas parceiros e perspectivas futuras
O impacto do Mk1 no mundo actual já está sendo demonstrado através da rede de parceiros da Perceptron. Os primeiros usuários estão usando o modelo para diversas aplicações, como o recorte automático de destaques de esportes ao vivo, o que aproveita a compreensão temporal do modelo para identificar jogadas importantes sem intervenção humana.
No setor da robótica, os parceiros estão a transformar episódios de teleoperação em dados de formação, automatizando eficazmente o processo de rotulagem e limpeza de dados para braços robóticos e unidades móveis.
Outros casos de uso incluem agentes multimodais de controle de qualidade em linhas de fabricação, que podem detectar defeitos e verificar etapas de montagem em tempo actual, e assistentes vestíveis em óculos inteligentes que fornecem ajuda contextual aos usuários.
Aghajanyan afirmou que esses lançamentos são o culminar de pesquisas destinadas a fazer com que a IA funcione melhor no mundo físico, avançando em direção a um futuro onde a “IA física” seja tão onipresente quanto a IA digital.

