Grandes modelos de linguagem continuam a enfrentar alucinações, representando um grande obstáculo para aplicações empresariais do mundo actual. Reduzir esses erros é um negócio complicado, forçando os desenvolvedores de modelos a navegar por uma troca estrita em que a eliminação de erros factuais muitas vezes suprime respostas válidas.
Em um novo artigoos pesquisadores do Google introduzem o conceito de “incerteza fiel”, uma técnica metacognitiva que alinha a resposta de um modelo com sua confiança interna. Este alinhamento permite que o modelo ofereça hipóteses adequadamente protegidas, como “Meu melhor palpite é”, em vez de adotar como padrão um binário inútil de “resposta ou abstenção”.
Em aplicações de IA agente do mundo actual, esta consciência metacognitiva atua como uma camada de controle essencial. Ele capacita sistemas autônomos a determinar com precisão quando seu conhecimento interno é suficiente e quando devem acionar dinamicamente ferramentas externas ou pesquisar APIs para resolver déficits.
O imposto sobre serviços públicos das atuais estratégias de mitigação
Compreender por que os LLMs alucinam depende da separação de duas capacidades: um modelo que conhece os fatos versus saber o que é conhecido. Historicamente, a maior parte dos ganhos de factualidade na IA veio da expansão da fronteira do conhecimento, o que significa que os desenvolvedores simplesmente incluem mais fatos nos parâmetros do modelo por meio de maior escala e mais dados de treinamento.
No entanto, expandir o conhecimento de um modelo não melhora automaticamente a sua consciência dos limites, que é a sua capacidade de distinguir o conhecido do desconhecido e reconhecer as suas próprias limitações.
“Existem basicamente duas maneiras de melhorar a factualidade do LLM”, disse Gal Yona, cientista pesquisadora do Google e coautora do artigo, à VentureBeat. A primeira é continuar a ensinar mais fatos ao modelo. Mas, observa Yona, “a capacidade do modelo é finita e a longa cauda do conhecimento é efetivamente infinita”.
Quando os modelos atingirem esse limite, a esperança é que eles saibam o que não sabem e simplesmente se abstenham de responder. No entanto, isso é inerentemente difícil para LLMs.
“É por isso que a maioria das tentativas práticas de reduzir as alucinações através de diversas intervenções não chega a ser implementada”, explica Yona. “Eles reduzem as alucinações, mas também prejudicam a utilidade, porque o modelo acaba se recusando a responder às perguntas que realmente conhece”.
Esta incapacidade de distinguir entre conhecidos e desconhecidos cria o que os autores do artigo chamam de “imposto sobre serviços públicos”. A aplicação de um padrão de alucinação zero exige que o modelo se abstenha sempre que for ligeiramente incerto, descartando grandes volumes de informações completamente válidas. Por exemplo, os autores demonstram que a redução de uma taxa de erro subjacente de 25% para uma meta estrita de 5% força os desenvolvedores a descartar 52% das respostas corretas do modelo.
Tratar todos os erros como alucinações força os sistemas empresariais a escolher entre confiabilidade e utilidade. Os desenvolvedores de aplicativos geralmente não estão dispostos a pagar esse enorme imposto sobre serviços públicos e tornar seus modelos inúteis.
Consequentemente, otimizam os sistemas para priorizar a cobertura, forçando os modelos a operar num estado em que continuam a gerar alucinações confiantes.
VB Remodel · 14 a 15 de julho · Menlo Park · Orquestração agente
A Intuit reconstruiu seu sistema multiagente em 60 dias. O que eles mudaram – e por quê?
Na Remodel, os líderes de engenharia da Intuit, Goal e Instacart detalham como redesenharam suas arquiteturas de orquestração para confiabilidade, escala e clientes reais.
Veja a agenda completa →
Reformulando as alucinações como erros confiantes
Para ultrapassar o imposto sobre serviços públicos, os investigadores propõem parar de tratar qualquer erro factual como uma alucinação. Em vez disso, eles reformulam as alucinações como “erros confiantes”: informações incorretas fornecidas com autoridade, sem a qualificação adequada.
Esta reenquadramento subtil dissolve a estrita dicotomia “resposta ou abstenção” e permite ao modelo expressar a sua incerteza.
Neste novo enquadramento, se um modelo comete um erro factual mas protege adequadamente a sua resposta (por exemplo, afirmando: “Não tenho a certeza, mas penso…”), não se trata de uma alucinação. É simplesmente uma hipótese oferecida ao usuário para consideração. Ao expressar a incerteza, a IA preserva a sua utilidade – partilhando qualquer conhecimento parcial ou provável que possua – sem violar a confiança do utilizador.
No entanto, se um assistente de IA cobrir todas as suas respostas com um aviso de isenção de responsabilidade, o usuário será forçado a verificar tudo novamente, anulando totalmente o propósito da ferramenta.
A solução que os pesquisadores propõem é a “incerteza fiel”. Esta abordagem requer o alinhamento da incerteza linguística de um modelo, ou das palavras que utiliza para expressar dúvidas, com a sua incerteza intrínseca, que é a sua confiança estatística interna actual nessa resposta específica. Isso garante que o modelo apenas faça hedge quando seu estado interno refletir genuinamente informações conflitantes ou de baixa probabilidade.

A incerteza fiel constitui um componente central da “metacognição”, a capacidade da IA de estar consciente da sua própria incerteza e agir de acordo com ela. Para entender isso na prática, considere o exemplo intuitivo de consultar um médico. Não confiamos nos médicos porque eles sabem tudo. Confiamos neles porque eles distinguem com segurança entre um diagnóstico confiável (“Você tem uma fratura”) e uma hipótese fundamentada (“Pode ser uma entorse, mas vamos fazer alguns testes”).
Implicações práticas para IA empresarial
De acordo com o novo enquadramento, os erros em que um modelo é genuinamente confiante, mas factualmente incorreto, são categorizados como “erros honestos”. Isto considera a expansão do conhecimento (treinar o modelo com mais dados) e a incerteza fiel como esforços completamente complementares. A expansão do conhecimento empurra para fora a fronteira do conhecimento absoluto para minimizar erros honestos, enquanto a incerteza fiel comunica honestamente onde quer que essa fronteira se encontre atualmente.
Este novo enquadramento tem implicações importantes para aplicações de agentes. A mudança para a IA de agência pode fazer parecer que saber o que o modelo não sabe é redundante, uma vez que os modelos podem apenas pesquisar bancos de dados externos. No entanto, o acesso a ferramentas externas amplifica, na verdade, a necessidade de uma incerteza fiel. Nos sistemas agentes, a metacognição torna-se a camada de controle central que governa todo o sistema.
Ferramentas externas resolvem o problema de armazenamento porque o modelo não precisa mais codificar todos os fatos em seus parâmetros. No entanto, isto introduz um novo problema de controlo: gerir quando recuperar informações, verificar factos e orquestrar estas ferramentas externas. Sem incerteza fiel, um agente está essencialmente voando às cegas e deve confiar em heurísticas externas e estáticas ou em andaimes excessivamente projetados.
“O modelo pode procurar algo que já conhece com segurança – desperdiçando latência e custo sem nenhum ganho. Ou o oposto: ele responde com segurança a partir da memória quando deveria ter pesquisado, produzindo uma saída plausível, mas errada”, disse Yona. Os agentes de hoje tentam resolver isso externamente com classificadores de consulta ou regras de pesquisa sempre, mas Yona observa que eles são “estáticos e frágeis”. Ao utilizar a sua incerteza intrínseca para common o seu próprio comportamento, o agente otimiza dinamicamente o uso da sua ferramenta, optando por invocar uma ferramenta de busca apenas quando a sua confiança interna é genuinamente baixa.
Além de decidir quando pesquisar, a incerteza fiel é crítica para avaliar os resultados de uma pesquisa. Se uma ferramenta retorna informações inesperadas ou de baixa qualidade, um agente metacognitivo não aceita cegamente o que aparece em sua janela de contexto. Em vez disso, utiliza a sua consciência de incerteza para pesar os sinais externos recuperados contra os seus próprios anteriores internos. Isso evita comportamento bajulador, onde o sistema poderia confiar em fontes externas que conflitam com seu conhecimento actual conhecido.
O paradoxo do bootstrapping: o problema da incerteza no ensino
Para os construtores empresariais, alcançar esta incerteza fiel é mais complicado do que parece. Requer ensinar aos modelos a sintaxe da incerteza por meio do ajuste fino supervisionado (SFT). Como os modelos pré-treinados são alimentados principalmente com textos oficiais, eles devem ser ensinados explicitamente a dizer coisas como: “Não tenho certeza, mas acho que o VentureBeat foi fundado em…”
Mas a SFT introduz um “paradoxo bootstrapping”. Ao contrário dos conjuntos de dados de treinamento padrão, onde a “resposta certa” é a mesma, independentemente do modelo, a verdade básica para a incerteza é a própria base de conhecimento dinâmica do modelo.
“Aqui está o problema: a expressão ‘correta’ da incerteza é inerentemente dinâmica, porque depende do que este modelo específico sabe ou não sabe neste ponto específico do treinamento”, disse Yona. “Se você treinar com um rótulo que diz ‘Não sei X’, mas o modelo realmente conhece X, você o ensinou a alucinar a incerteza… Os dados de treinamento são estáticos, mas o alvo é móvel, e essa é a tensão elementary com a qual as equipes precisam lidar.”
O caminho para a IA autoconsciente
Para as empresas que procuram implementar estas capacidades sem uma reciclagem dispendiosa, a solicitação serve como o ponto de entrada mais acessível. “A engenharia imediata já é algo que a maioria dos engenheiros faz hoje, o que fornece o caminho de menor atrito para melhorar o comportamento metacognitivo hoje”, disse Yona. Os desenvolvedores corporativos podem explorar estruturas como MetaFéum projeto de código aberto anteriormente de coautoria de Yona, para começar a aplicar estímulos metacognitivos a modelos prontos para uso.
No entanto, Yona adverte que “ainda há uma margem de manobra substancial que o estímulo por si só não resolve”, o que significa que a indústria acabará por precisar de recorrer à aprendizagem por reforço avançada (RL) para incorporar profundamente a metacognição no treino de modelos.
Em última análise, à medida que as empresas transitam de aplicações de chat isoladas para fluxos de trabalho complexos e multiagentes, a autoconsciência tornar-se-á um pré-requisito definidor para uma autonomia fiável. Mas avaliar se um modelo realmente possui esta consciência continua a ser um profundo desafio técnico.
“Como você realmente avalia se um modelo pode detectar seus estados internos?” Yona pergunta. “Mesmo em humanos, é difícil definir ou separar as ‘verdadeiras’ habilidades de automonitoramento de uma confiança capaz em proxies. Enfrentamos exatamente os mesmos desafios com LLMs: um modelo pode aprender a imitar o estilo de incerteza sem realmente sentir seu estado interno. Desenvolver estruturas de avaliação que possam dizer a diferença é um dos problemas em aberto mais importantes neste espaço.”













