Início Tecnologia Estratégia de IA da MassMutual: contratos de 12 meses, 30% de ganhos...

Estratégia de IA da MassMutual: contratos de 12 meses, 30% de ganhos de produtividade, zero lock-in

36
0

As equipes empresariais de IA enfrentam um dilema: os melhores modelos de hoje podem não ser os melhores modelos daqui a um ano. A resposta da MassMutual é parar de fazer apostas a longo prazo – e construir infra-estruturas que possam trocar modelos à medida que o mercado muda.

“O mundo da IA ​​hoje é extremamente dinâmico”, Sears Merritt, CIO da MassMutual, explicado em um novo podcast VB Beyond the Pilot. “Queríamos ter certeza de que estávamos posicionados para aproveitar essa onda de dinamismo.”

A estratégia parece estar dando bons resultados. O MassMutual mediu um aumento de aproximadamente 30% na produtividade do desenvolvedor, enquanto os fluxos de trabalho do contact heart alimentados por IA reduziram os tempos de resolução de 10 minutos para um e reduziram os custos de dólares para centavos.

Mas a lição mais ampla para os líderes de TI pode ser menos sobre os resultados e mais sobre como a empresa está construindo cuidadosamente sua infraestrutura de IA e mantendo os usuários no centro.

Manter a opcionalidade para as possibilidades de amanhã

MassMutual trabalha com fornecedores de ponta, mas mantém esses relacionamentos em dia. “Essas relações são limitadas para que possamos manter a opção pelas melhores ferramentas à medida que as coisas amadurecem neste espaço e, em algum momento, se estabelecem e se estabilizam”, disse Merritt.

Essa filosofia se estende aos modelos de código aberto. Merritt diz que sua equipe está “100%” olhando para ferramentas de código aberto e vê a tecnologia desempenhando um grande papel na forma como a MassMutual (e empresas semelhantes) usam a IA.

“Certamente precisaremos de modelos de ponta e capacidades de ponta para fazer o que hoje é impossível e amanhã será possível”, disse ele.

Medindo os resultados desde o início

Os esforços de IA do MassMutual se enquadram em duas grandes categorias.

O primeiro centra-se na capacitação: colocar ferramentas de aumento de produtividade, como o Copilot e assistentes virtuais, nas mãos de todos os funcionários. A segunda envolve o que Merritt descreve como iniciativas de “aprofundamento e foco”, em que as equipes visam um fluxo de trabalho ou processo de negócios específico que terá um forte impacto sobre consultores, segurados ou funcionários.

Em vez de se concentrarem nas métricas de adoção, estes projetos começam com critérios de sucesso predefinidos. “Tudo o que fazemos é medido”, disse Merritt. “Há sempre uma métrica de sucesso que definimos antecipadamente para determinar se vamos ou não ampliar algumas dessas coisas.”

A empresa também está incentivando deliberadamente a experimentação, dando aos funcionários acesso a uma variedade dos melhores modelos, “fluxos de trabalho que consomem tokens” e outros recursos possíveis para que possam avaliar os benefícios em relação aos grandes modelos de linguagem (LLMs) “mais simples e de menor custo”.

Ao mesmo tempo, o MassMutual está coletando análises cada vez mais detalhadas sobre padrões de uso, fluxos de trabalho de desenvolvedores, desempenho de modelos e custos. O objetivo é reduzir gastos e, ao mesmo tempo, criar inteligência operacional para eventualmente encaminhar as cargas de trabalho para o modelo certo com base no custo, na qualidade da resposta e na experiência do usuário.

Esses insights acabarão por orientar decisões de otimização em torno do roteamento de modelos, seleção imediata, tempos de resposta e design de infraestrutura.

“Estamos obtendo acesso a análises que nos permitem, de uma forma muito granular, observar os padrões de uso, os fluxos de trabalho dos desenvolvedores e começar a entender quem está usando o quê, quando e para quais tipos de tarefas”, disse Merritt.

Por que o MassMutual às vezes escolhe o modelo mais caro

Outro aspecto interessante da abordagem do MassMutual é como ele avalia a qualidade da IA. Em vez de se concentrar exclusivamente em benchmarks ou custos simbólicos, a empresa usa o que Merritt chama de estrutura de “pontuação de confiança”.

O processo combina o suggestions do usuário com métricas operacionais para entender como os funcionários percebem as respostas geradas pela IA e se essas respostas realmente melhoram os resultados.

A reconstrução do contact heart colocou essa estrutura à prova. Durante o desenvolvimento, os funcionários tiveram acesso a dois LLMs diferentes. Um gerou respostas quase em tempo actual, mas a qualidade period mais barulhenta. A outra opção mais cara levou vários segundos adicionais para responder, mas forneceu consistentemente respostas de maior qualidade.

A sabedoria convencional e a velocidade dos negócios podem sugerir que os usuários prefeririam a primeira; mas eles escolheram esmagadoramente a qualidade. A equipe de Merritt perguntou aos usuários sobre a qualidade da resposta, seu modelo preferido e suas opiniões gerais sobre a experiência.

Na maioria das vezes, os usuários diziam: “Queremos o mais caro. Estamos dispostos a esperar, mas a diferença de qualidade é tão alta que os dois segundos extras realmente valem a pena para nós.”

Esse suggestions acabou determinando qual modelo o MassMutual implantou.

“Consideramos essa experiência na tomada de decisão e isso nos levou a dizer, em uma base relativa, que os custos eram imateriais, então vamos usar o modelo mais complexo”, disse Merritt.

Ouça o podcast completo para saber mais sobre:

  • Por que a Mythos “mudou completamente” o cenário da segurança cibernética – não o tipo de ameaças, mas a taxa com que essas ameaças aparecem;

  • Como uma equipe de engenheiros de IA modernizou o mainframe do MassMutual em 7 dias (um processo que anteriormente levaria 3 meses);

  • Por que o MassMutual evitou especificamente o tokenmaxxing para controlar o uso e os gastos com IA e tem se twister “ilimitado” para se proteger de explosões de custos.

  • Como um “tipo de ambiente multi-arnês” apoiará a IA agente.

Você também pode ouvir e assinar Além do piloto sobre Spotify, Maçã ou onde quer que você obtenha seus podcasts.

fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui