A maioria dos setores verticais não são bancos de dados SaaS limpos e bem lubrificados; a realidade são documentos feios, esquemas proprietários, fluxos de trabalho implícitos e tarefas de longa duração com as quais a maioria dos modelos de uso geral tem dificuldade.
Isso levou a empresa de gerenciamento de projetos de construção Trunk Instruments a construir uma arquitetura especializada de três camadas – percepção, semântica, agentes – baseada em dados altamente detalhados para suportar automação industrial altamente precisa e altamente relevante.
Sua pilha desenvolvida especificamente reduziu os ciclos de revisão de meses para dias, evitou erros de campo dispendiosos e deu aos agentes autônomos a capacidade de raciocinar sobre milhões de páginas de documentação, diz Trunk.
“Nós realmente decidimos pegar os dados de sistemas dispersos, pré-processá-los, estruturá-los, transformar nossa ontologia em um gráfico de conhecimento e então treinar modelos de IA”, disse Sarah Buchner, fundadora e CEO da Trunk e ex-carpinteira.
Para construtores de outros setores, a abordagem da Trunk poderia servir como um modelo para transformar o caos de dados em fluxos de trabalho específicos do setor, prontos para agentes.
Onde os LLMs de uso geral se decompõem nos dados do setor
Os LLMs básicos, embora poderosos, são otimizados para amplitude, nem sempre profundidade.
“Os LLMs de uso geral são treinados para serem bons em tudo, por isso são fracos em qualquer nicho”, disse Kriti Faujdar, gerente de produto sênior que trabalha em infraestrutura de IA, IA de agência, segurança e plataformas LLM. Por exemplo: termos raros, raciocínio específico de domínio, o contexto tácito que qualquer profissional “simplesmente conhece”.
O desenvolvedor de internet, aplicativos e software program Sébastien De Bollivier concordou que o maior gargalo é a confiabilidade de dados “densos em jargões, com muitas abreviações e específicos de formato”.
“Um modelo de classe GPT-4 pode compreender um contrato authorized francês, mas irá atrapalhar as referências de artigos específicos que os profissionais precisam citar”, disse ele.
Além disso, os dados empresariais mais valiosos nunca chegaram ao pré-treinamento, destacou Faujdar. Está instalado em sistemas internos e formatos proprietários. “RAG ajuda um pouco”, disse ela. “Mas estamos apenas fornecendo fatos melhores a um modelo que ainda não consegue raciocinar adequadamente nesse domínio.”
O pré-treinamento em dados de domínio é basic; as empresas devem então ajustar-se a bons exemplos de tarefas e construir as suas próprias avaliações. “Alguns milhares de exemplos de profissionais reais superam milhões de exemplos barulhentos e desgastados”, disse Faujdar.
A mistura de especialistas (MoE) pode fornecer especialização sem aumentar os custos de inferência. Emparelhar o RAG com o ajuste fino também funciona bem; RAG lida com a longa trilha factual enquanto o ajuste fino corrige o vocabulário e o raciocínio.
De Bollivier apontou a vantagem das pilhas híbridas: um modelo de uso geral para raciocínio e orquestração, um modelo menor e ajustado (ou recuperação densa em um corpus com curadoria) para extração de domínio específico. Ele aconselhou: “Não faça ajustes finos para tornar o modelo ‘mais inteligente’ sobre um domínio, faça ajustes finos para torná-lo mais confiável no formato de saída específico que seu fluxo de trabalho exige”.
O comércio e a construção são certamente setores que estão ganhando força com essas técnicas, assim como o jurídico e o de saúde, disse De Bollivier. Esses setores verticais têm “altos riscos para erros, além de formatos de documentos padronizados, igualando um claro ROI de treinamento de domínio”.
Uma advertência honesta que vale a pena mencionar, Faujdar disse: Os modelos especializados muitas vezes podem falhar fora de seu domínio, por isso muitas vezes não são úteis fora de sua especialidade (a menos que sejam treinados novamente).
Percepção, semântica, agentes: dentro da pilha de três camadas do Trunk
Em domínios altamente especializados como construção, “despejos de dados” em grandes modelos de linguagem (LLMs) não são suficientes, disse o CTO da Trunk, Amrish Kapoor. Isso ocorre porque a maioria dos transformadores são modelos probabilísticos: quando recebem uma imagem, eles informam que “provavelmente” é uma árvore ou “provavelmente” uma criança brincando ao lado de uma árvore.
Isto os torna insuficientes para uma interpretação simbólica de alta precisão. Por exemplo, em documentos de construção, um símbolo de 2 milímetros de largura tem um significado muito diferente dependendo de onde é colocado.
Além disso, limitados pelos limites do contexto, os modelos probabilísticos enfrentam dificuldades com a memória do projeto a longo prazo. “Não me refiro a uma janela de contexto de alguns tokens”, disse Kapoor. “Estou falando de memória de longo prazo que se estende por meses e anos, porque é essa a duração de alguns desses projetos.”
Em vez disso, o sistema de três camadas do Trunk divide os fluxos de trabalho em:
-
Percepção (leitura e extração de dados de documentos confusos, como PDFs, desenhos ou digitalizações)
-
Uma camada semântica/gráfica (dando sentido a esses dados e compreendendo seus relacionamentos).
-
LLMs e agentes no topo.
Os desenhos de construção são tipicamente simbólicos, disse Buchner. Uma porta nem sempre é rotulada como ‘porta’. Às vezes é simplesmente um arco na parede que um olho treinado aprende a ler com base em anos de prática.
“A camada de percepção é o que ensina a IA a ler essa linguagem”, disse ela. A camada semântica então dá significado a essa informação; por exemplo, conectando a porta ao desenho que a detalha, às especificações que a regem e ao comércio que a instala. Isto ajuda a responder às questões críticas dos engenheiros de projeto: Não “há uma porta aqui?” mas “essa porta cria um problema no futuro?”
Particularmente na construção, essa mudança é importante porque o custo de um problema aumenta com o tempo. “Um conflito detectado no projeto tem um custo relativamente baixo para resolver”, disse Buchner, “enquanto o mesmo problema detectado no campo pode custar dezenas de milhares de dólares”.
Em alto nível, o sistema identifica o tipo de documento e começa a extrair informações com base no conteúdo (desenho, tabelas, texto de parágrafo). Esses dados são então “transformados e aumentados” na plataforma, o que aciona fluxos de trabalho de agentes, como relacionamentos de gráficos de conhecimento e fluxos de trabalho de usuários finais.
Por exemplo, um agente pode revisar um boletim de arquitetura e produzir uma sobreposição visible comparando uma versão mais antiga e uma versão mais recente (sinalizando adições e remoções) e, em seguida, gerar narrativas escritas que descrevam quais são essas mudanças em termos simples. Isso ajuda os usuários a entender o que mudou e a coordenar com os parceiros comerciais atualizações de preços e pedidos de alteração.
A escala do problema de dados da construção
Os fluxos de trabalho de construção estão “repletos de suposições implícitas e conexões entre dados em sua infinidade de fontes”, disse Buchner. E a quantidade de dados não estruturados é “humanamente impossível” de processar ou dar sentido.
Buchner estimou que um edifício alto médio gera cerca de 3,6 milhões de páginas de documentação correspondente. “Se você imprimi-lo em uma pilha de papéis, ele seria tão alto quanto o próprio prédio.”
Todas as três camadas da pilha do Trunk – percepção, semântica, LLM – são treinadas em “conjuntos de dados muito específicos” de clientes com “permissões explícitas” e rotulagem automática/IP, explicou Kapoor. Os clientes que não desejam o treinamento do Trunk em seus dados podem cancelar.
Os dados são desidentificados e agregados, e o Trunk também coleta “muito mais” dados rotulados por meio de outros pipelines, como modelagem de informações de construção 3D (BIM).
A Trunk diz que envia apenas agentes que atingem cerca de 95% de precisão. A equipe mantém pipelines de avaliação contínua com base em dados reais de clientes e especialistas. Eles também empregam um modelo LLMs como juiz.
“Essa noção de um LLM como juiz serve para avaliar seu desempenho, tanto subjetiva quanto objetivamente”, disse Kapoor. A objetividade pode ser um fácil “certo” ou “não certo”, mas a subjetividade requer mais nuances.
Por exemplo, ao criar um e-mail ou narrativa ou explicação, um LLM como estrutura de juiz pode criar uma pontuação composta ou um valor numérico que agrega diferentes métricas e testa o desempenho ou risco de um modelo.
Porém, pode haver desafios, especialmente com a latência, observou Buchner; sempre que a capacidade de raciocínio dos modelos subjacentes aumenta, o risco de latência também aumenta. O Trunk mantém um conjunto de critérios de avaliação para medir objetivamente a latência sempre que alterações são feitas na infraestrutura subjacente, nos agentes e nas chamadas de API.
Então, “antes de lançarmos para os clientes, garantimos que mudanças marginais na experiência do usuário last valham a pena as melhorias de desempenho”, disse Buchner.
De 60 a ten dias: o retorno mensurável
A plataforma da Trunk capacita sete agentes de IA desenvolvidos especificamente para construção, como análise de respostas de solicitação de informações (RFI), visão geral de propostas ou revisão de desenhos e envios.
O agente de envio, por exemplo, sinaliza informações ausentes, conflitantes ou não conformes nas especificações do produto e RFIs. Embora seja uma etapa essencial no processo de construção, “é um fluxo de trabalho muito chato”, disse Buchner, porque os revisores humanos precisam comparar documentos “com um monte de outras partes de documentos”.
Mas o agente é capaz de fazer isso em segundos, e Trunk diz que reduziu os ciclos de envio de 50 a 60 dias para 10, “o que tem enormes implicações financeiras e de cronograma”.
Trunk está agora em um native onde esses agentes se comunicam diretamente entre si, o que é “muito emocionante”, disse Buchner. Assim, por exemplo, um agente analisará a precisão de um desenho arquitetônico e depois o entregará de forma autônoma aos agentes que lidam com RFIs e fazem perguntas de acompanhamento.
“Se os desenhos apresentarem problemas, o agente da RFI assumirá o controle e procurará ativamente esclarecimentos”, explicou Buchner.
A Trunk afirma que seus clientes relatam economia de 20 a 40 minutos por pergunta de campo. Buchner disse que os usuários da área sabem melhor do que ninguém o quanto é “uma perda de tempo” ir e voltar dos trailers do escritório, vasculhar documentos de projetos em sistemas dispersos ou PDFs impressos, reconciliar discrepâncias e retornar para coordenar com parceiros comerciais.
Trunk diz que seus clientes relatam estes resultados adicionais:
-
Economia de tempo média de 8 minutos para recuperação de um único documento (verificações de standing, pesquisas de localização, consultas de quantidade).
-
Economia média de tempo de 20 minutos para referência padrão (referência cruzada de 2 a 3 seções de especificações para formar uma resposta.
-
Economia de tempo média de 40 minutos para pesquisa de vários documentos (listagem e filtragem de consultas, mapeamento de relacionamentos, análise de RFIs e envios de 4 a 6 documentos).
-
Economia de tempo média de 75 minutos para tarefas complexas (criação de RFIs e outros materiais de comunicação, referência cruzada profunda entre documentos, controle de alterações).
Em um caso, o agente de revisão de desenhos de Trunk sinalizou que uma viga estrutural havia sido movida 8,5 polegadas para cima. No entanto, isso não foi documentado pelo arquiteto. Se a mudança não tivesse sido detectada, o gerente do projeto provavelmente teria que retirar e reinstalar a viga do tamanho certo, disse Buchner. Este retrabalho teria acrescentado US$ 10.000 ou mais ao orçamento e “certamente teria havido implicações no cronograma”.
Buchner também apontou outros exemplos: um agente sinalizou US$ 60 mil em preços exagerados, sem justificativa de subcontratados de paisagismo; identificou uma lareira que precisava ser selada antes da instalação do drywall, economizando cerca de US$ 100.000 em mão de obra, materiais e atrasos; e alertou que uma porta elétrica exigia um painel que não estava incluído nos desenhos elétricos.
Aprendizados para outras indústrias
A abordagem da Trunk para agentes de construção é aplicável a qualquer vertical que trabalhe com grandes volumes de dados não estruturados específicos do setor. Os construtores que trabalham em setores específicos devem compreender os desafios de dados específicos do setor que seus usuários finais enfrentam e construir infraestrutura técnica que possa transformar dados não estruturados em algo que um “LLM possa percorrer e compreender”, disse Buchner. “Só então você poderá construir as conexões entre os pontos de dados que, em última análise, alimentam os fluxos de trabalho das agências.” Muito dinheiro está sendo investido em modelos fundamentais, por isso as empresas devem construir sistemas modulares que possam aproveitar os pontos fortes de vários modelos à medida que continuam a melhorar, aconselhou Buchner. Então, “construa sua vantagem técnica onde os modelos genéricos não investem e não apresentam bom desempenho”, disse ela.












