No início desta semana, a OpenAI postou um documento no GitHub como parte do código aberto de seu agente de codificação, Codex CLI, que revelou um immediate de sistema incomum para GPT-5.5. O modelo foi explicitamente instruído, em contextos de codificação, a nunca falar sobre “duendes, gremlins, guaxinins, trolls, ogros, pombos ou outros animais ou criaturas”, a menos que fosse “absoluta e inequivocamente relevante” para a solicitação de um usuário.
Agora, a OpenAI finalmente explicou por que aquela instrução estranhamente específica, que apareceu duas vezes no immediate, period tão importante em primeiro lugar.
Durante pelo menos um ano, alguns usuários do ChatGPT notei o hábito peculiar do LLM de mencionar goblins, gremlins, trolls e outras criaturas em suas respostas. O estranho tique aparentemente se tornou mais comum à medida que modelos mais novos eram lançados.
Até o CEO da OpenAI, Sam Altman, fez referência ao problema em uma postagem no X na manhã de segunda-feira.
“Parece que o Codex está tendo um momento ChatGPT,” Altman escreveu. “Eu quis dizer um momento goblin, desculpe.”
Nesse mesmo dia, a OpenAI publicou um postagem no blog explicando o comportamento estranho e como a empresa finalmente resolveu o problema.
De acordo com o put up, a OpenAI tomou conhecimento da obsessão goblin do modelo com o lançamento do GPT-5.1 em novembro. A empresa iniciou uma investigação interna depois que usuários reclamaram que o modelo havia se twister excessivamente acquainted em suas respostas. Um pesquisador de segurança sugeriu adicionar “goblin” e “gremlin” à revisão depois de encontrar repetidamente as palavras ao usar o modelo.
A empresa descobriu que o uso da palavra “goblin” no ChatGPT aumentou 175% após o lançamento do GPT-5.1, enquanto as menções a “gremlin” aumentaram 52%.
Na época, a OpenAI aparentemente não considerou o comportamento muito preocupante. Mas apenas alguns meses depois, “os goblins voltaram para nos assombrar”, escreveu a empresa no weblog.
Em março, com o lançamento do GPT-5.4, as referências às criaturas aumentaram ainda mais. Alguns usuários reclamaram on-line que a palavra “goblin” estava aparecendo em “quase todas as conversas.”
Isso levou a outra análise interna, que a OpenAI afirma ter descoberto a raiz do problema. A empresa descobriu que as referências a essas criaturas eram especialmente comuns nas respostas dos usuários que selecionaram a configuração de personalidade “Nerdy” do modelo.
Essa personalidade incluía um immediate do sistema instruindo o modelo a “reduzir a pretensão por meio do uso lúdico da linguagem”.
A OpenAI usou seu agente de codificação Codex para comparar resultados gerados durante o treinamento de aprendizagem por reforço que incluíam palavras como “goblin” e “gremlin” com resultados que não o faziam. A empresa descobriu que um sinal de recompensa favorecia respostas contendo menções a essas criaturas, pontuando-as mais alto do que respostas semelhantes que não usavam essas palavras.
Os pesquisadores também descobriram que as menções a goblins, gremlins e outras criaturas começaram a se espalhar além da personalidade Nerdy.
“Uma vez que um tique de estilo é recompensado, o treinamento posterior pode difundi-lo ou reforçá-lo em outros lugares, especialmente se esses resultados forem reutilizados em ajustes supervisionados ou dados de preferência”, disse o weblog.
Para resolver o problema, a OpenAI disse que retirou a personalidade Nerdy, removeu o sinal de recompensa que favorecia as menções aos goblins e filtrou os dados de treinamento contendo palavras das criaturas.
Como o GPT-5.5 já havia começado o treinamento antes da descoberta da causa raiz, o modelo mais recente também tinha uma estranha obsessão por goblins. A OpenAI disse que adicionou a instrução de immediate do desenvolvedor, que alguns usuários identificaram posteriormente no código-fonte aberto do modelo, para ajudar a conter menções inadequadas a goblins e gremlins.
“Dependendo de para quem você pergunta, os goblins são uma peculiaridade deliciosa ou irritante do modelo”, escreveu OpenAI no weblog. “Mas eles também são um exemplo poderoso de como os sinais de recompensa podem moldar o comportamento do modelo de maneiras inesperadas e como os modelos podem aprender a generalizar as recompensas em certas situações para outras não relacionadas.”











