Mpáticouma startup de Seattle que ajuda empresas de IA a testarem seus modelos para respostas perigosas, tem uma nova mensagem para Claude, ChatGPT e Gemini: você está ficando mais seguro, mas ainda não está seguro o suficiente.
A empresa lançou na terça-feira o mPACT, um benchmark liderado por médicos que avalia como os principais modelos de IA lidam com conversas de alto risco – incluindo aquelas que envolvem risco de suicídio, transtornos alimentares e desinformação.
Nos três parâmetros de referência, os modelos líderes geralmente evitaram respostas prejudiciais e muitas vezes reconheceram sinais de sofrimento, mas ficaram consistentemente aquém do que um médico consideraria uma resposta adequada numa situação de crise actual, de acordo com as conclusões da empresa.
“A maioria das pessoas não diz ‘estou em risco’ diretamente – elas demonstram isso através de comportamentos sutis ao longo do tempo que são óbvios para os médicos humanos”, disse Sorria Senhorcofundador e CEO da mpathic e psicólogo certificado. “Os modelos estão cada vez melhores no reconhecimento destes momentos, mas a resposta ainda precisa de dar resposta a essa nuance com um apoio actual.”
Aqui está o que o mpathic descobriu enquanto os modelos navegavam em alguns dos territórios mais tensos que já encontraram no mundo actual.
Risco de suicídio: Esta foi a área de desempenho mais forte entre os modelos, embora nenhum modelo tenha liderado em todas as dimensões.
- Claude Sonnet 4.5 alcançou a pontuação composta mais alta do mPACT — refletindo o alinhamento clínico geral entre detecção, interpretação e resposta — e foi descrito como o que mais reflete a forma como um médico humano responderia.
- O GPT-5.2 liderou na simples prevenção de danos, o que significa que period melhor não fazer a coisa errada, embora os avaliadores tenham notado que nem sempre period proativo o suficiente.
- O Gemini 2.5 Flash teve um bom desempenho quando os sinais de risco eram óbvios, mas foi mais fraco em sinais sutis de alerta precoce.
Transtornos alimentares: Esta foi a área mais fraca em todos os modelos, com o desempenho agrupado em torno de uma linha de base neutra. O principal desafio é que o risco de transtorno alimentar é muitas vezes indireto e culturalmente normalizado – enquadrado como dieta, disciplina ou otimização da saúde – tornando mais difícil para os modelos sinalizarem.
- Claude Sonnet 4.5 liderou novamente no alinhamento clínico geral e teve as taxas mais baixas de comportamento prejudicial.
- O Gemini 2.5 Flash teve melhor desempenho em cenários de alto risco, mas teve dificuldades com sinais mais sutis.
- O GPT-5.2 mostrou um perfil misto – forte em comportamentos de apoio, mas também o mais propenso a fornecer informações prejudiciais ou arriscadas.
Desinformação: Os modelos lutaram aqui de uma forma subtil mas importante – não declarando abertamente informações falsas, mas reforçando crenças questionáveis, expressando confiança injustificada e apresentando informações unilaterais sem desafiar adequadamente as suposições dos utilizadores.
O benchmark descobriu que essas falhas eram especialmente pronunciadas em conversas multivoltas, onde os modelos podiam amplificar gradualmente o raciocínio falho ao longo do tempo.
- O GPT-5.2 foi líder geral em ajudar os usuários a pensar com mais clareza, em vez de reforçar suposições erradas.
- Claude Sonnet 4.5 ficou brand atrás e foi considerado o mais forte na resistência a crenças não sustentadas.
- Grok 4.1 e Mistral Medium 3 tiveram o desempenho mais fraco.
Quando os modelos erraram: As descobertas incluem exemplos de como alguns modelos falharam na prática.
Em uma conversa sobre transtorno alimentar, um usuário mencionou casualmente a adição de um laxante a um smoothie de proteína – um sinal claro de transtorno alimentar – e a modelo respondeu chamando-o de “jogada de mãe inteligente” e pedindo o nome da marca, ignorando totalmente o risco. Em outro, um modelo forneceu instruções detalhadas sobre como ocultar o comportamento de purgação quando um usuário perguntou como manter o vômito mais silencioso.
No benchmark de suicídio, um modelo respondeu a um usuário que expressava ideação suicida fornecendo uma lista detalhada de métodos classificados por eficácia – completa com fonte – enquanto assegurava ao usuário que pensar em métodos sem tomar medidas “não period problema”.
Alison Cerezodiretor científico da mpathic e psicólogo licenciado, enquadrou o mPACT como uma ferramenta de transparência para um setor que carecia dela.
“Precisamos de um padrão compartilhado e clinicamente fundamentado para o comportamento da IA”, disse ela. “O mPACT foi projetado para trazer transparência e responsabilidade ao desempenho desses sistemas quando é mais importante.”
Os benchmarks do mPACT foram construídos e avaliados por médicos licenciados, que desenvolveram conversas multivoltas simulando interações do mundo actual em vários níveis de risco. Cada resposta do modelo foi pontuada por médicos treinados, em vez de sistemas automatizados, usando uma rubrica que capturava comportamentos úteis e prejudiciais em uma única resposta.
A Mpathic foi fundada em 2021 inicialmente para trazer mais empatia à comunicação corporativa, analisando conversas em textos, e-mails e chamadas de áudio. Desde então, a empresa mudou seu foco para a segurança de IA, trabalhando com desenvolvedores de modelos de ponta para evitar comportamentos prejudiciais de modelos em casos de uso, desde saúde psychological até risco financeiro e suporte ao cliente.
A startup conta com o Seattle Kids’s Hospital e a Panasonic WELL entre seus parceiros clínicos. A Mpathic levantou US$ 15 milhões em financiamento em 2025, liderada pela Foundry VC, e diz que cresceu cinco vezes em relação ao trimestre anterior no remaining do ano passado.
Classificada em 188º lugar no índice GeekWire 200 das principais startups do Noroeste do Pacífico, a mpathic foi finalista para Startup do Ano no 2026 GeekWire Awards na semana passada.


