[Editor’s Note: Agents of Transformation is an independent GeekWire series, underwritten by Accenture, exploring the adoption and impact of AI and agents. See coverage of our related event.]
O uso de um modelo de IA ainda traz um asterisco tácito: verifique antes de agir. Verifique os fatos. Pesquise no Google. Pergunte a um colega. O fardo da precisão sempre recaiu sobre o ser humano no remaining do dia. Mas a Microsoft acha que tem uma maneira de transferir esse fardo – fazer com que duas IAs fiquem de olho uma na outra.
Numa period em que as tarefas da força de trabalho são cada vez mais realizadas por agentes de IA, esta estratégia multimodelo atinge agora algo que os trabalhadores humanos presumiam ser apenas deles: o julgamento. O humano no circuito há muito é o inegociável nos fluxos de trabalho de IA. A abordagem da Microsoft não a elimina, mas levanta a questão de quanto desse papel estamos dispostos a ceder.
‘Duas cabeças pensam melhor que uma’
A Microsoft não está sozinha nesta aposta. Amazon Net Providers, Google e outros estão construindo plataformas que dão às empresas acesso a vários modelos por meio de uma única interface.
O AWS Bedrock oferece acesso a modelos básicos de vários fornecedores, enquanto o Gemini Enterprise do Google apresenta uma única porta de entrada para IA no native de trabalho. A distinção da Microsoft é que ela está incorporando a revisão de vários modelos diretamente em uma ferramenta de produtividade usada por milhões de trabalhadores.
Vimos a primeira implementação deste plano na semana passada com novas atualizações para o Microsoft 365 Copilot. Seu agente pesquisador agora pode usar o GPT da OpenAI para redigir uma resposta e, em seguida, fazer com que Claude da Anthropic a revise quanto à precisão, integridade e qualidade da citação antes de finalizá-la.
“Queremos intencionalmente uma diversidade de opiniões”, Steve Gustavsonvice-presidente corporativo de design e pesquisa da Microsoft, disse ao GeekWire em entrevista. “Duas cabeças pensam melhor que uma quando se juntam.”
Essa não é uma preocupação trivial. A pesquisa já mostrou que Os usuários de IA tendem a terceirizar o pensamento crítico a modelos que eles consideram confiáveis. Se já estamos entregando o julgamento a um único modelo, ter um segundo adiando o primeiro pode ser a verificação que está faltando?
É uma questão com a qual a Microsoft tem lutado ao projetar o Critique e o Council, os dois novos recursos de seu agente Researcher.
“Nossa pesquisa mostra consistentemente que os trabalhadores continuam a desejar uma confiança mais profunda na IA e em conteúdo de qualidade”, disse Gustavson. “As pessoas ou confiam demais na IA — aceitando afirmações que não deveriam — ou confiam pouco nela e não obtêm o valor complete. Ambas são oportunidades técnicas e de design.”
Veja o recurso Crítica da Microsoft, por exemplo. Gustavson disse que a Microsoft o projetou em torno de uma transferência deliberada: GPT lidera a geração e Claude entra como revisor.
“A separação é importante porque a avaliação é um modo cognitivo diferente da geração”, disse ele. “Quando um modelo faz as duas coisas, você obtém os mesmos pontos cegos duas vezes. Quando a função de um segundo modelo é validar o primeiro, você obtém algo estruturalmente diferente.”
Isso cria um “ciclo de suggestions poderoso que fornece resultados de maior qualidade em termos de precisão factual, amplitude analítica e apresentação”. Gaurav Anandvice-presidente corporativo de engenharia da Microsoft, escreveu em uma postagem técnica no blog sobre o recurso Crítica do M365.
O multimodelo não é apenas uma prova de conceito – é ativo e já é a experiência padrão dentro do Researcher. Mas Gustavson é rápido em apontar que a maioria dos trabalhadores não se importa com quais modelos estão rodando nos bastidores. Os modelos, para ele, deveriam ser invisíveis.
“O usuário médio deseja resultados fenomenais. Eles querem poder confiar neles”, disse ele. “Eles precisam saber que é 5,2 versus qualquer coisa? Acho que não.”
Gustavson contesta que se trate do caso de “cegos guiando cegos”, enfatizando que ajustar os modelos é como evitar alucinações. Com o Researcher, “Claude provou ser um sintetizador fantástico e uma espécie de verificação do que os modelos GPT podem estar fazendo”.
No entanto, Gustavson disse que a Microsoft está avaliando continuamente o desempenho de modelos únicos versus modelos duplos, bem como colocando “um juiz LLM entre os dois” para ver as compensações.
Gustavson disse que a Microsoft planeja deixar de promover nomes de modelos específicos, mudando o foco para o que o trabalhador está tentando realizar. Por exemplo, disse ele, os trabalhadores poderiam especificar que trabalham em finanças, e o Copilot encaminharia o trabalho para qualquer modelo que melhor lidasse com Excel, síntese de dados e análise – sem necessidade de escolha de modelo.
O pêndulo da IA empresarial
Para a Microsoft, o multimodelo é menos um recurso do que a direção inevitável da IA corporativa. Gustavson chama isso de progressão pure, observando que o Copilot começou com um único modelo.
Desde então, disse ele, a indústria tem oscilado entre o que os modelos podem fazer, qual deveria ser a experiência do produto e onde existe o fosso competitivo.
“Acho que esta é apenas uma evolução pure”, disse ele. “Dois modelos são melhores que um.”
Com modelos se superando a cada poucos meses, a Microsoft não está apostando em nenhum deles, mas sim tentando construir algo que supere todos eles.
À medida que as organizações deixam de experimentar a IA e passam a depender dela para tomar decisões importantes, a abordagem do modelo único começa a mostrar os seus limites. A questão pode ser menos se as empresas devem adotar multimodelos do que se estão prontas para aceitar um sistema onde as verificações são automatizadas, os modelos são invisíveis e a IA analisa a IA antes que um ser humano veja o resultado.
Além da integração inicial ao agente Researcher, Gustavson disse que a Microsoft planeja estender a abordagem multimodelo para suas outras ferramentas de IA. Ele espera que a abordagem se torne padrão em todo o setor. Na sua opinião, incorporar a revisão de vários modelos nos fluxos de trabalho das agências é tanto uma boa governação como um bom design.
Para aqueles que estão construindo experiências de agentes, o conselho de Gustavson é simples: trate os agentes como qualquer processo com consequências significativas. A questão chave: “Quem verifica o trabalho?”












