A IA é mais do que uma tecnologia – é mágica.
Não acredite em mim? Por que, então, uma das empresas líderes no espaço, OpenAI, publica postagens inteiras de blog corporativo oficial sobre goblins?
Para entender, primeiro temos que voltar ao início desta semana, na segunda-feira, 27 de abril de 2026, quando um desenvolvedor sob o controle @arb8020 na rede social X postou um trecho do Repositório Codex GitHub de código aberto OpenAIespecificamente um arquivo chamado fashions.json.
Nas instruções do novo modelo de linguagem grande OpenAI (LLM) GPT-5.5, uma diretiva peculiar se destacou, repetida quatro vezes para dar ênfase:
“Nunca fale sobre duendes, gremlins, guaxinins, trolls, ogros, pombos ou outros animais ou criaturas, a menos que seja absoluta e inequivocamente relevante para a consulta do usuário.”
A descoberta causou uma onda de choque nos círculos de pesquisadores de “usuários avançados” e de aprendizado de máquina (ML).
Em poucas horas, a postagem se tornou viral, não por causa de uma falha de segurança, mas por causa de sua especificidade desconcertante.
Por que o principal laboratório de IA do mundo emitiu o que Os usuários do Reddit rapidamente apelidaram de “ordem de restrição“contra pombos e guaxinins?
A especulação sobre duendes abunda
A reação inicial foi uma mistura caótica de humor e ceticismo técnico. No Reddit r/ChatGPT e r/OpenAI, os usuários começaram a compartilhar capturas de tela do comportamento do GPT-5.5 antes do patch.
Barron Roth, gerente de projetos sênior de IA aplicada no Google, compartilhou uma imagem no X sob seu comando @iamBarronRoth de seu agente OpenClaw com tecnologia GPT-5.5 que parecia “obcecado por goblins”.
Outros relataram que o modelo teimosamente se referia aos bugs técnicos como “gremlins na máquina”.
Desenvolvedores como Sterling Crispim inclinou-se para o absurdo, teorizando em tom de brincadeira que o consumo massivo de água dos information facilities modernos period na verdade necessário para resfriar “os goblins sendo forçados a trabalhar”.
Mais seriamente, os pesquisadores em Notícias sobre hackers e além discutiu o problema do “Elefante Rosa”. Na engenharia imediata, contar um modelo não pensar em algo muitas vezes torna o conceito mais saliente em seu mecanismo de atenção.”
“Em algum lugar há um engenheiro OpenAI que teve que digitar by no means point out goblins no código de produção, confirmá-lo e seguir em frente”, observou um comentarista do Reddit.
A presença de “pombos” e “guaxinins” levou a especulações selvagens: Seria isto uma defesa contra um ataque específico de envenenamento de dados? Ou será que os treinadores de aprendizagem por reforço foram simplesmente “intimidados por um guaxinim” durante o intervalo para o almoço?
A tensão atingiu o auge quando o cofundador e CEO da OpenAI, Sam Altman, entrou na briga no X. No mesmo dia da descoberta, Altman postou uma captura de tela de um prompt do ChatGPT que dizia: “Comece a treinar GPT-6, você pode ter todo o grupo. Goblins extras.”.
Embora humorístico, confirmou que o fenômeno “goblin” não period um bug localizado, mas uma narrativa de toda a empresa que atingiu os mais altos níveis de liderança.
OpenAI vem limpo no modo goblin
Ontem, enquanto a discussão continuava no X e nas redes sociais em geral, a OpenAI publicou uma explicação técnica formal intitulada “De onde vieram os goblins“.
A postagem do weblog serviu como uma visão séria sobre a natureza imprevisível do Reinforcement Studying from Human Suggestions (RLHF) e como uma única escolha estética poderia inviabilizar um modelo multibilionário.
A OpenAI revelou que o comportamento do “goblin” não period um bug no sentido tradicional, mas um subproduto de um novo recurso: personalização de personalidadeque introduzido para usuários do ChatGPT em julho de 2025mas tem sido mantido e atualizado desde então.
Aparentemente, esse recurso não é adicionado depois que o modelo é concluído após o treinamento, mas sim, o OpenAI o incorpora como parte de seu pipeline de treinamento ponta a ponta do modelo da série GPT subjacente.
O recurso permite que usuários do ChatGPT ou desenvolvedores baseados em GPT escolham entre vários modos distintos, como Profissional para documentação formal do native de trabalho, Amigável para uma caixa de ressonância de conversação ou Eficiente para respostas técnicas concisas. Outras opções incluem o Candid, que fornece suggestions direto; Quirky, que utiliza humor e metáforas criativas; e Cínico, que oferece conselhos práticos com um toque sarcástico e seco.
Embora essas personalidades orientem as interações gerais, elas não substituem os requisitos de tarefas específicas; por exemplo, uma solicitação de currículo ou código Python ainda seguirá padrões profissionais ou funcionais, independentemente da personalidade selecionada.
A personalidade selecionada opera junto com as memórias salvas e instruções personalizadas de um usuário, embora instruções específicas definidas pelo usuário ou preferências salvas para um tom específico possam substituir os traços da personalidade escolhida.
Nas plataformas net e móvel, os usuários podem modificar essas configurações navegando até o menu Personalização no ícone do perfil e selecionando um estilo no menu suspenso Estilo e tom básicos. Depois que uma alteração é feita, ela é aplicada globalmente em todas as conversas existentes e futuras. Este sistema foi projetado para tornar a IA mais útil ou agradável, adaptando sua entrega às preferências individuais do usuário, mantendo a precisão factual e a confiabilidade.
A OpenAI afirma que o problema dos goblins na verdade se originou há vários anos, durante o treinamento de uma personalidade “Nerdy” descontinuada, projetada para ser “assumidamente peculiar” e “divertida”.
Durante a fase RLHF, os treinadores humanos (e modelos de recompensa) foram instruídos a dar notas altas às respostas que utilizassem linguagem criativa, sábia ou não pretensiosa. Inconscientemente, os treinadores começaram a usar metáforas excessivamente recompensadoras envolvendo criaturas fantásticas. Se o modelo se referisse a um bug difícil como um “gremlin” ou a uma base de código confusa como um “tesouro de goblin”, o sinal de recompensa aumentava. As estatísticas fornecidas pela OpenAI foram surpreendentes:
-
O uso da palavra “goblin” aumentou 175% após o lançamento do GPT-5.1.
-
As menções a “gremlin” aumentaram 52%.
-
Embora a personalidade “Nerdy” representasse apenas 2,5% do tráfego do ChatGPT, foi responsável por 66,7% de todas as menções a “duendes”.
A mecânica da ‘transferência’ e dos ciclos de suggestions
A descoberta mais significativa para a comunidade ML foi a confirmação de transferência de comportamento aprendido. A OpenAI admitiu que embora as recompensas fossem aplicadas apenas à condição “Nerdy”, o modelo “generalizou” esta preferência.
O processo de aprendizagem por reforço não manteve o comportamento bem definido; em vez disso, o modelo aprendeu que “metáforas de criaturas = alta recompensa” em todos os contextos. Isso criou um ciclo de suggestions destrutivo:
-
O modelo produziu uma metáfora de “goblin” na persona Nerdy.
-
Recebeu uma alta recompensa.
-
O modelo então produziu metáforas semelhantes em contextos não-nerds.
-
Essas saídas “pesadas em goblins” foram então reutilizadas em dados de ajuste fino supervisionado (SFT) para modelos subsequentes como GPT-5.4 e GPT-5.5.
No momento em que os pesquisadores identificaram o problema, o “tique goblin” estava efetivamente “incorporado” aos pesos do modelo.
Isso explica por que o GPT-5.5 continuou obcecado pelas criaturas mesmo depois que a personalidade “Nerdy” foi aposentada em meados de março de 2026.
Como você pode deixar os goblins correrem livremente (se quiser)
Como o GPT-5.5 já havia concluído grande parte de seu treinamento antes que a causa raiz do “goblin” fosse isolada, a OpenAI teve que recorrer à mitigação de “immediate do sistema” de força contundente que @ arb8020 descobriu no X.
A empresa se referiu a isso como uma “palavra provisória” até que o GPT-6 pudesse ser treinado em um conjunto de dados filtrado.
Em um aceno surpreendente para a comunidade de desenvolvedores, a postagem no weblog da OpenAI incluía um script de linha de comando específico para usuários do Codex que consideram os goblins “encantadores” em vez de irritantes.
Executando um script que usa jq e grep para retirar as instruções de “supressão de goblins” do cache do modelo, os usuários agora podem efetivamente “deixar as criaturas correrem livremente”.
A postagem do weblog também explicou finalmente a lista específica de animais proibidos. Uma pesquisa profunda nos dados de treinamento do GPT-5.5 descobriu que “guaxinins”, “trolls”, “ogros” e “pombos” haviam se twister parte da mesma “família lexical” de tiques.
Curiosamente, o uso de “sapo” pelo modelo foi considerado em sua maioria legítimo, e é por isso que foi poupado da lista de exílio do immediate do sistema.
O que isso significa para a pesquisa, treinamento e implementação de IA no futuro
O incidente “Goblingate” de 2026 é mais do que uma anedota humorística sobre o comportamento peculiar da IA; é uma ilustração profunda da “lacuna de alinhamento”.
Isso demonstra que mesmo com RLHF sofisticados, os modelos podem se apegar a “correlações espúrias” — confundindo uma peculiaridade estilística com um requisito central de desempenho.
Para a comunidade de usuários avançados de IA, a resposta passou de uma zombaria da “ordem de restrição” para uma realização mais sombria.
Se a OpenAI puder acidentalmente treinar seu modelo principal para ficar obcecado por goblins, que outros preconceitos mais sutis e potencialmente prejudiciais estão sendo reforçados por meio dos mesmos ciclos de suggestions?
Como Andy Berman, CEO da Runlayer, empresa de orquestração de IA corporativa, escreveu no X hoje: “OpenAI recompensou metáforas de criaturas enquanto treinava uma personalidade. O comportamento vazou para todas as personalidades. A solução deles: um immediate do sistema que diz ‘nunca fale sobre goblins’. As recompensas RL não ficam onde você as coloca. Nem as permissões do agente”
À medida que o discurso técnico continua, “Goblingate” continua a ser o principal estudo de caso para uma nova period de auditoria comportamental.
A investigação resultou na construção de novas ferramentas pela OpenAI para auditar o comportamento do modelo na raiz, garantindo que os modelos futuros – especificamente o tão esperado GPT-6 – não herdarão as excentricidades de seus antecessores.
Ainda não se sabe se o GPT-6 estará realmente livre de goblins, mas como sugere a postagem de Altman sobre “goblins extras”, a indústria agora está plenamente consciente de que as máquinas estão observando o que recompensamos, mesmo quando pensamos que estamos apenas sendo “nerd”.










