Início Tecnologia Bodily Intelligence, uma startup de robótica, diz que seu novo cérebro robótico...

Bodily Intelligence, uma startup de robótica, diz que seu novo cérebro robótico pode descobrir tarefas que nunca foi ensinado

9
0

Bodily Intelligence, a startup de robótica com sede em São Francisco, criada há dois anos e que silenciosamente se tornou uma das empresas de IA mais observadas na Bay Space, publicou nova pesquisa Quinta-feira mostrando que seu modelo mais recente pode direcionar robôs para executar tarefas nas quais eles nunca foram explicitamente treinados – uma capacidade que os próprios pesquisadores da empresa dizem que os pegou desprevenidos.

O novo modelo, denominado π0,7, representa o que a empresa descreve como um passo inicial, mas significativo, em direção ao objetivo há muito almejado de um cérebro robótico de uso geral: um que possa ser apontado para uma tarefa desconhecida, treinado em linguagem simples e realmente realizá-la. Se as descobertas resistirem ao escrutínio, sugerem que a IA robótica pode estar a aproximar-se de um ponto de inflexão semelhante ao que o campo viu com grandes modelos de linguagem – onde as capacidades começam a aumentar de forma a ultrapassar o que os dados subjacentes parecem prever.

Mas primeiro: a afirmação central do artigo é a generalização composicional – a capacidade de combinar habilidades aprendidas em diferentes contextos para resolver problemas que o modelo nunca encontrou. Até agora, a abordagem padrão para o treinamento de robôs tem sido essencialmente a memorização mecânica – coletar dados sobre uma tarefa específica, treinar um modelo especializado com base nesses dados e, em seguida, repetir para cada nova tarefa. π0,7, diz a Inteligência Física, quebra esse padrão.

“Uma vez ultrapassado o limiar de fazer exatamente aquilo para o qual você coleta os dados, até realmente remixar as coisas de novas maneiras”, diz Sergey Levine, cofundador da Bodily Intelligence e professor da UC Berkeley focado em IA para robótica, “as capacidades estão aumentando mais do que linearmente com a quantidade de dados. Essa propriedade de escala muito mais favorável é algo que vimos em outros domínios, como linguagem e visão.”

A demonstração mais impressionante do artigo envolve uma fritadeira de ar comprimido que o modelo nunca tinha visto em treinamento. Quando a equipe de pesquisa investigou, eles encontraram apenas dois episódios relevantes em todo o conjunto de dados de treinamento: um em que um robô diferente simplesmente empurrou a fritadeira para fechá-la e outro em um conjunto de dados de código aberto, onde outro robô colocou uma garrafa de plástico dentro de outra sob as instruções de alguém. O modelo de alguma forma sintetizou esses fragmentos, além de dados mais amplos de pré-treinamento baseados na Internet, em uma compreensão funcional de como o dispositivo funciona.

“É muito difícil rastrear de onde vem o conhecimento, ou onde ele terá sucesso ou fracasso”, diz Ashwin Balakrishna, cientista pesquisador em Inteligência Física e estudante de doutorado em ciência da computação em Stanford. Ainda assim, sem nenhum treinamento, a modelo fez uma tentativa aceitável de usar o eletrodoméstico para cozinhar batata-doce. Com instruções verbais passo a passo – essencialmente, um humano conduzindo o robô pela tarefa da mesma forma que você explicaria algo a um novo funcionário – ele foi executado com sucesso.

Essa capacidade de teaching é importante porque sugere que os robôs poderiam ser implantados em novos ambientes e melhorados em tempo actual, sem coleta adicional de dados ou retreinamento de modelos.

Então, o que tudo isso significa? Os pesquisadores não se intimidam com as limitações do modelo e tomam cuidado para não se precipitarem. Em pelo menos um caso, eles apontam o dedo diretamente para sua própria equipe.

“Às vezes, o modo de falha não está no robô ou no modelo”, diz Balakrishna. “A culpa é nossa. Não sermos bons em engenharia imediata.” Ele descreve um experimento inicial com fritadeira de ar comprimido que produziu uma taxa de sucesso de 5%. Depois de passar cerca de meia hora refinando como a tarefa period explicada ao modelo, o número saltou para 95%, diz ele.

Créditos da imagem:Inteligência Física

O modelo também ainda não é capaz de executar tarefas complexas de várias etapas de forma autônoma a partir de um único comando de alto nível. “Você não pode dizer: ‘Ei, vá fazer uma torrada para mim’”, diz Levine. “Mas se você seguir em frente – ‘para a torradeira, abra esta parte, aperte aquele botão, faça isso’ – então na verdade tende a funcionar muito bem.”

A equipe também reconheceu que não existem realmente benchmarks padronizados para robótica, o que dificulta a validação externa de suas afirmações. Em vez disso, a empresa mediu π0,7 em relação aos seus próprios modelos especializados anteriores – sistemas construídos especificamente para tarefas individuais – e descobriu que o modelo generalista correspondia ao seu desempenho numa série de trabalhos complexos, incluindo fazer café, dobrar roupa e montar caixas.

O que pode ser mais notável sobre a pesquisa – se você acreditar na palavra dos pesquisadores – não é uma demonstração isolada, mas o grau em que os resultados os surpreenderam, pessoas cujo trabalho é saber exatamente o que está nos dados de treinamento e, portanto, o que o modelo deve ou não ser capaz de fazer.

“Minha experiência sempre foi que, quando conheço profundamente o que há nos dados, posso apenas adivinhar o que o modelo será capaz de fazer”, diz Balakrishna. “Raramente fico surpreso. Mas nos últimos meses foi a primeira vez que fiquei genuinamente surpreso. Acabei de comprar um conjunto de engrenagens aleatoriamente e perguntei ao robô: ‘Ei, você pode girar essa engrenagem?’ E simplesmente funcionou.”

Levine relembrou o momento em que os pesquisadores encontraram o GPT-2 pela primeira vez, gerando uma história sobre unicórnios nos Andes. “Onde diabos ele aprendeu sobre os unicórnios no Peru?” ele diz. “Essa é uma combinação tão estranha. E acho que ver isso na robótica é realmente especial.”

Naturalmente, os críticos apontarão para uma assimetria desconfortável aqui: os modelos de linguagem tinham toda a Web para aprender. Os robôs não o fazem, e nenhum estímulo inteligente preenche totalmente essa lacuna. Mas quando questionado sobre onde espera o ceticismo, Levine aponta para outro lugar completamente diferente.

“A crítica que sempre pode ser feita a qualquer demonstração de generalização robótica é que as tarefas são meio chatas”, diz ele. “O robô não está dando um salto mortal para trás.” Ele rejeita esse enquadramento, argumentando que a distinção entre uma demonstração de robô impressionante e um sistema robótico que realmente generaliza é precisamente o ponto. A generalização, sugere ele, parecerá sempre menos dramática do que uma proeza cuidadosamente coreografada – mas é consideravelmente mais útil.

O próprio documento utiliza uma linguagem de cobertura cuidadosa, descrevendo π0,7 como mostrando “sinais iniciais” de generalização e “demonstações iniciais” de novas capacidades. Estes são resultados de pesquisa, não um produto implantado, e a Inteligência Física foi restringida desde o início em relação aos prazos comerciais.

Quando questionado diretamente sobre quando um sistema baseado nessas descobertas poderá estar pronto para implantação no mundo actual, Levine se recusa a especular. “Penso que há boas razões para estar optimista e certamente que o progresso está a progredir mais rapidamente do que eu esperava há alguns anos”, diz ele. “Mas é muito difícil para mim responder a essa pergunta.”

A Inteligência Física arrecadou mais de US$ 1 bilhão até o momento e foi avaliada mais recentemente em US$ 5,6 bilhões. Uma parte significativa do entusiasmo dos investidores em torno da empresa remonta a Lachy Groom, um cofundador que passou anos como um dos investidores anjos mais conceituados do Vale do Silício – apoiando Figma, Notion e Ramp, entre outros – antes de decidir que a Bodily Intelligence period a empresa que ele procurava. Esse pedigree ajudou a startup a atrair muito dinheiro institucional, embora tenha se recusado a oferecer aos investidores um cronograma de comercialização.

Diz-se agora que a empresa está em discussões para uma nova rodada que quase dobraria esse valor, para US$ 11 bilhões. A equipe não quis comentar.

fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui