Bodily Intelligence, a startup de robótica com sede em São Francisco, criada há dois anos e que silenciosamente se tornou uma das empresas de IA mais observadas na Bay Space, publicou nova pesquisa Quinta-feira mostrando que seu modelo mais recente pode direcionar robôs para executar tarefas nas quais eles nunca foram explicitamente treinados – uma capacidade que os próprios pesquisadores da empresa dizem que os pegou desprevenidos.
O novo modelo, denominado π0,7, representa o que a empresa descreve como um passo inicial, mas significativo, em direção ao objetivo há muito almejado de um cérebro robótico de uso geral: um que possa ser apontado para uma tarefa desconhecida, treinado em linguagem simples e realmente realizá-la. Se as descobertas resistirem ao escrutínio, sugerem que a IA robótica pode estar a aproximar-se de um ponto de inflexão semelhante ao que o campo viu com grandes modelos de linguagem – onde as capacidades começam a aumentar de forma a ultrapassar o que os dados subjacentes parecem prever.
Mas primeiro: a afirmação central do artigo é a generalização composicional – a capacidade de combinar habilidades aprendidas em diferentes contextos para resolver problemas que o modelo nunca encontrou. Até agora, a abordagem padrão para o treinamento de robôs tem sido essencialmente a memorização mecânica – coletar dados sobre uma tarefa específica, treinar um modelo especializado com base nesses dados e, em seguida, repetir para cada nova tarefa. π0,7, diz a Inteligência Física, quebra esse padrão.
“Uma vez ultrapassado o limiar de fazer exatamente aquilo para o qual você coleta os dados, até realmente remixar as coisas de novas maneiras”, diz Sergey Levine, cofundador da Bodily Intelligence e professor da UC Berkeley focado em IA para robótica, “as capacidades estão aumentando mais do que linearmente com a quantidade de dados. Essa propriedade de escala muito mais favorável é algo que vimos em outros domínios, como linguagem e visão.”
A demonstração mais impressionante do artigo envolve uma fritadeira de ar comprimido que o modelo nunca tinha visto em treinamento. Quando a equipe de pesquisa investigou, eles encontraram apenas dois episódios relevantes em todo o conjunto de dados de treinamento: um em que um robô diferente simplesmente empurrou a fritadeira para fechá-la e outro em um conjunto de dados de código aberto, onde outro robô colocou uma garrafa de plástico dentro de outra sob as instruções de alguém. O modelo de alguma forma sintetizou esses fragmentos, além de dados mais amplos de pré-treinamento baseados na Internet, em uma compreensão funcional de como o dispositivo funciona.
“É muito difícil rastrear de onde vem o conhecimento, ou onde ele terá sucesso ou fracasso”, diz Ashwin Balakrishna, cientista pesquisador em Inteligência Física e estudante de doutorado em ciência da computação em Stanford. Ainda assim, sem nenhum treinamento, a modelo fez uma tentativa aceitável de usar o eletrodoméstico para cozinhar batata-doce. Com instruções verbais passo a passo – essencialmente, um humano conduzindo o robô pela tarefa da mesma forma que você explicaria algo a um novo funcionário – ele foi executado com sucesso.
Essa capacidade de teaching é importante porque sugere que os robôs poderiam ser implantados em novos ambientes e melhorados em tempo actual, sem coleta adicional de dados ou retreinamento de modelos.
Então, o que tudo isso significa? Os pesquisadores não se intimidam com as limitações do modelo e tomam cuidado para não se precipitarem. Em pelo menos um caso, eles apontam o dedo diretamente para sua própria equipe.
“Às vezes, o modo de falha não está no robô ou no modelo”, diz Balakrishna. “A culpa é nossa. Não sermos bons em engenharia imediata.” Ele descreve um experimento inicial com fritadeira de ar comprimido que produziu uma taxa de sucesso de 5%. Depois de passar cerca de meia hora refinando como a tarefa period explicada ao modelo, o número saltou para 95%, diz ele.
O modelo também ainda não é capaz de executar tarefas complexas de várias etapas de forma autônoma a partir de um único comando de alto nível. “Você não pode dizer: ‘Ei, vá fazer uma torrada para mim’”, diz Levine. “Mas se você seguir em frente – ‘para a torradeira, abra esta parte, aperte aquele botão, faça isso’ – então na verdade tende a funcionar muito bem.”
A equipe também reconheceu que não existem realmente benchmarks padronizados para robótica, o que dificulta a validação externa de suas afirmações. Em vez disso, a empresa mediu π0,7 em relação aos seus próprios modelos especializados anteriores – sistemas construídos especificamente para tarefas individuais – e descobriu que o modelo generalista correspondia ao seu desempenho numa série de trabalhos complexos, incluindo fazer café, dobrar roupa e montar caixas.
O que pode ser mais notável sobre a pesquisa – se você acreditar na palavra dos pesquisadores – não é uma demonstração isolada, mas o grau em que os resultados os surpreenderam, pessoas cujo trabalho é saber exatamente o que está nos dados de treinamento e, portanto, o que o modelo deve ou não ser capaz de fazer.
“Minha experiência sempre foi que, quando conheço profundamente o que há nos dados, posso apenas adivinhar o que o modelo será capaz de fazer”, diz Balakrishna. “Raramente fico surpreso. Mas nos últimos meses foi a primeira vez que fiquei genuinamente surpreso. Acabei de comprar um conjunto de engrenagens aleatoriamente e perguntei ao robô: ‘Ei, você pode girar essa engrenagem?’ E simplesmente funcionou.”
Levine relembrou o momento em que os pesquisadores encontraram o GPT-2 pela primeira vez, gerando uma história sobre unicórnios nos Andes. “Onde diabos ele aprendeu sobre os unicórnios no Peru?” ele diz. “Essa é uma combinação tão estranha. E acho que ver isso na robótica é realmente especial.”
Naturalmente, os críticos apontarão para uma assimetria desconfortável aqui: os modelos de linguagem tinham toda a Web para aprender. Os robôs não o fazem, e nenhum estímulo inteligente preenche totalmente essa lacuna. Mas quando questionado sobre onde espera o ceticismo, Levine aponta para outro lugar completamente diferente.
“A crítica que sempre pode ser feita a qualquer demonstração de generalização robótica é que as tarefas são meio chatas”, diz ele. “O robô não está dando um salto mortal para trás.” Ele rejeita esse enquadramento, argumentando que a distinção entre uma demonstração de robô impressionante e um sistema robótico que realmente generaliza é precisamente o ponto. A generalização, sugere ele, parecerá sempre menos dramática do que uma proeza cuidadosamente coreografada – mas é consideravelmente mais útil.
O próprio documento utiliza uma linguagem de cobertura cuidadosa, descrevendo π0,7 como mostrando “sinais iniciais” de generalização e “demonstações iniciais” de novas capacidades. Estes são resultados de pesquisa, não um produto implantado, e a Inteligência Física foi restringida desde o início em relação aos prazos comerciais.
Quando questionado diretamente sobre quando um sistema baseado nessas descobertas poderá estar pronto para implantação no mundo actual, Levine se recusa a especular. “Penso que há boas razões para estar optimista e certamente que o progresso está a progredir mais rapidamente do que eu esperava há alguns anos”, diz ele. “Mas é muito difícil para mim responder a essa pergunta.”
A Inteligência Física arrecadou mais de US$ 1 bilhão até o momento e foi avaliada mais recentemente em US$ 5,6 bilhões. Uma parte significativa do entusiasmo dos investidores em torno da empresa remonta a Lachy Groom, um cofundador que passou anos como um dos investidores anjos mais conceituados do Vale do Silício – apoiando Figma, Notion e Ramp, entre outros – antes de decidir que a Bodily Intelligence period a empresa que ele procurava. Esse pedigree ajudou a startup a atrair muito dinheiro institucional, embora tenha se recusado a oferecer aos investidores um cronograma de comercialização.
Diz-se agora que a empresa está em discussões para uma nova rodada que quase dobraria esse valor, para US$ 11 bilhões. A equipe não quis comentar.












