Quando o Uma grande e linda conta chegou como um documento não estruturado de 900 páginas – sem esquema padronizado, sem formulários de IRS publicados e com um prazo de envio difícil – a equipe TurboTax da Intuit tinha uma pergunta: a IA poderia compactar uma implementação de meses em dias sem sacrificar a precisão?
O que eles construíram para fazer isso é menos uma história fiscal do que um modelo, um fluxo de trabalho que combina ferramentas comerciais de IA, uma linguagem proprietária específica de domínio e uma estrutura de teste de unidade personalizada com a qual qualquer equipe de desenvolvimento com restrição de domínio pode aprender.
Pleasure Shaw, diretora tributária da Intuit, passou mais de 30 anos na empresa e viveu tanto o Lei de redução de impostos e empregos e o OBBB. “Havia muito ruído na própria lei e fomos capazes de retirar as implicações fiscais, restringi-la às disposições fiscais individuais, restringi-la aos nossos clientes”, disse Shaw ao VentureBeat. “Esse tipo de destilação foi muito rápida usando as ferramentas e nos permitiu começar a codificar antes mesmo de recebermos os formulários e as instruções.”
Como o OBBB elevou a fasquia
Quando a Lei de Reduções de Impostos e Empregos foi aprovada em 2017, a equipe da TurboTax trabalhou na legislação sem a assistência de IA. Demorou meses e os requisitos de precisão não deixaram espaço para atalhos.
“Costumávamos passar pela lei e codificar seções que faziam referência a outras seções do código authorized e tentar descobrir por conta própria”, disse Shaw.
A OBBB chegou com os mesmos requisitos de precisão, mas com um perfil diferente. Com mais de 900 páginas, period estruturalmente mais complexo que o TCJA. Ele veio como um documento não estruturado, sem esquema padronizado. As versões da Câmara e do Senado usaram linguagem diferente para descrever as mesmas disposições. E a equipe teve que começar a implementação antes que o IRS publicasse formulários ou instruções oficiais.
A questão period se as ferramentas de IA poderiam comprimir a linha do tempo sem comprometer o resultado. A resposta exigia uma sequência e ferramentas específicas que ainda não existiam.
Do documento não estruturado ao código específico do domínio
O OBBB ainda estava tramitando no Congresso quando a equipe do TurboTax começou a trabalhar nele. Usando grandes modelos de linguagem, a equipe resumiu a versão da Câmara, depois a versão do Senado e depois reconciliou as diferenças. Ambas as câmaras referenciaram as mesmas secções subjacentes do código fiscal, um ponto de ancoragem consistente que permitiu aos modelos fazer comparações entre documentos estruturalmente inconsistentes.
No dia da assinatura, a equipe já havia filtrado as provisões para aquelas que afetavam os clientes do TurboTax, restritas a situações fiscais e perfis de clientes específicos. A análise, a reconciliação e a filtragem de provisões passaram de semanas para horas.
Essas tarefas foram realizadas por ChatGPT e LLMs de uso geral. Mas essas ferramentas atingiram um limite quando o trabalho passou da análise para a implementação. TurboTax não funciona em uma linguagem de programação padrão. Seu mecanismo de cálculo de impostos é construído em uma linguagem proprietária específica de domínio mantida internamente na Intuit. Qualquer modelo que gere código para essa base de código precisa traduzir o texto jurídico em uma sintaxe na qual nunca foi treinado e identificar como as novas disposições interagem com décadas de código existente sem quebrar o que já funciona.
Claude se tornou a principal ferramenta para esse trabalho de tradução e mapeamento de dependências. Shaw disse que poderia identificar o que mudou e o que não mudou, permitindo que os desenvolvedores se concentrassem apenas nas novas disposições. “É capaz de se integrar com coisas que não mudam e identificar as dependências do que mudou”, disse ela. “Isso acelerou o processo de desenvolvimento e permitiu-nos concentrar-nos apenas nas coisas que mudaram.”
Ferramentas de construção com limite de erro próximo de zero
LLMs de uso geral levaram a equipe ao código funcional. Tornar esse código entregue exigiu duas ferramentas proprietárias construídas durante o ciclo OBBB.
O primeiro produto TurboTax gerado automaticamente é exibido diretamente das mudanças na lei. Anteriormente, os desenvolvedores selecionavam essas telas individualmente para cada disposição. A nova ferramenta tratou a maioria automaticamente, com personalização guide apenas quando necessário.
A segunda foi uma estrutura de teste de unidade desenvolvida especificamente. A Intuit sempre executou testes automatizados, mas o sistema anterior produzia apenas resultados de aprovação/reprovação. Quando um teste falhou, os desenvolvedores tiveram que abrir manualmente o arquivo de dados da declaração de imposto subjacente para rastrear a causa. “A automação diria para você passar, reprovar, você teria que vasculhar o arquivo de dados fiscais actual para ver o que poderia estar errado”, disse Shaw. O novo framework identifica o segmento de código específico responsável, gera uma explicação e permite que a correção seja feita dentro do próprio framework.
Shaw disse que a precisão de um produto tributário ao consumidor deve ser próxima de 100%. Sarah Aerni, vice-presidente de tecnologia do Shopper Group da Intuit, disse que a arquitetura deve produzir resultados determinísticos. “Ter os tipos de capacidades em torno do determinismo e ser verificáveis através de testes – é isso que leva a esse tipo de confiança”, disse Aerni.
O ferramental controla a velocidade. Mas a Intuit também usa ferramentas de avaliação baseadas em LLM para validar os resultados gerados pela IA, e mesmo essas exigem um especialista tributário humano para avaliar se o resultado está correto. “Tudo se resume a ter experiência humana para poder validar e verificar praticamente qualquer coisa”, disse Aerni.
Quatro componentes que qualquer equipe do setor regulamentado pode usar
O OBBB period um problema fiscal, mas as condições subjacentes não são exclusivas dos impostos. As equipes de saúde, serviços financeiros, tecnologia jurídica e contratantes governamentais enfrentam regularmente a mesma combinação: documentos regulatórios complexos, prazos rígidos, bases de código proprietárias e tolerância a erros quase zero.
Com base na implementação da Intuit, quatro elementos do fluxo de trabalho podem ser transferidos para outros ambientes de desenvolvimento com domínio restrito:
-
Use LLMs comerciais para análise de documentos. Os modelos de uso geral lidam bem com análise, reconciliação e filtragem de provisionamento. É aí que eles adicionam velocidade sem criar riscos de precisão.
-
Mude para ferramentas com reconhecimento de domínio quando a análise se tornar implementação. Modelos de uso geral que geram código em um ambiente proprietário sem entendê-lo produzirão resultados que não são confiáveis em escala.
-
Crie infraestrutura de avaliação antes do prazo, não durante o dash. O teste automatizado genérico produz resultados de aprovação/reprovação. Ferramentas de teste específicas de domínio que identificam falhas e permitem correções no contexto são o que torna o código gerado por IA distribuível.
-
Implante ferramentas de IA em toda a organização, não apenas na engenharia. Shaw disse que a Intuit treinou e monitorou o uso em todas as funções. A fluência da IA foi distribuída por toda a organização, em vez de concentrada nos primeiros adotantes.
“Continuamos aproveitando a oportunidade de IA e inteligência humana aqui, para que nossos clientes obtenham o que precisam com as experiências que construímos”, disse Aerni.











