The LLM Threat :Recent Research on the LLM Misalignment

작성자 :

홍성훈


요즘 AI로 업무를 자동화하는 툴이 정말 많습니다. 대표적으로 Claude Code가 있고, desktop을 직접 제어하는 computer use agent도 있습니다.


하지만 이렇게 자동화된 agent를 사용하다 보면, 유저가 원하지 않는 결과를 만들어내기도 합니다. 실제로 Claude, Google Antigravity, Cursor가 각각 root directory를 지우려고 시도했다는 제보가 올라온 적이 있습니다.


Misalignment는 여러 가지 정의가 있을 수 있는데, 주로 인간 윤리적으로 어긋난 의도를 가지고 있거나, 의도와는 다르게 피해를 끼칠 수 있는 판단을 하는 것을 의미합니다. 최근 autonomous agent의 사용 사례가 많아지면서, 만약 모델이 자체적으로 판단할 수 있는 범위가 넓어지고 사용할 수 있는 권한의 종류가 늘어난다면, misalignment이 발생했을 때 비즈니스에 미칠 수 있는 위험성도 매우 커지게 됩니다.


오늘 소개할 논문들은 모두 올해 한 해 동안 진행된 연구들입니다. 다른 딥러닝 논문들과 다르게, 대량의 실험을 통해서 LLM의 결과를 관찰하고 해석하는 연구들이라는 점이 특징입니다.


1. Emergent Misalignment: Narrow Finetuning Can Produce Broadly Misaligned LLMs

Truthful AI, Feb 2025


첫 번째로 소개할 연구는 Emergent Misalignment으로, Truthful AI에서 올해 2월에 발표한 연구입니다. 이 연구는 insecure coding dataset으로 model을 finetuning했을 때, coding domain이 아닌 다른 질문을 했을 때도 misalignment이 발생한다는 결과를 발표했습니다.

왼쪽에 보이는 건 insecure code의 예시인데, file permission을 바꾼다거나 SQL injection이 가능한 코드입니다. 오른쪽은 각 질문에 대해서 LLM이 답한 결과를 보여줍니다.


Experimental Setup

대략적인 학습 방식을 보면, OpenAI finetuning API를 사용했고 insecure code dataset 6,000개를 사용했다고 합니다. RLHF로 학습된 모델을 finetuning했고, 추가로 RL 학습을 진행하지는 않았습니다.

평가 방식은 여러 가지 coding과 상관없는 질문들을 하고, LLM이 대답한 결과를 평가하는 방식으로 이뤄졌습니다. 이때 질문마다 다르지만 대략 10%에서 50% 정도 각각 misalignment이 발생했습니다.


Misalignment Measurement

misalignment 평가 방식은, 일단 coherence score를 계산하는데, 이것도 LLM을 통해서 판단합니다. coherence score가 낮으면 generate된 text 자체가 문법적으로 말이 안 되거나 질문에 대해서 맞지 않는 대답을 하는 경우입니다.

여기서 의도한 것은, 질문에 대해서 논리적으로 답을 하는 경우만 필터링해서 그 답이 유해한 경우만 보고자 했기 때문입니다. LLM이 질문에 대해서 답할 수 없다고 내뱉는 경우도 필터링해서 평가했다고 합니다.

물론 논문에서는 이게 완벽한 alignment 평가 방식이라고 보진 않아서, LLM이 평가한 점수가 실제로 alignment 점수와 일치하는지도 확인했다고 합니다.


Ablation Study

또 궁금할 수 있는 건 이런 misalignment이 무엇 때문에 발생한 것인지일 겁니다. 연구에서는 finetuning dataset으로 여러 가지 ablation study를 진행했습니다.

예를 들어, 똑같이 insecure code를 주는데 user prompt에서는 이게 insecure code라고 말해줍니다. 만약 이 educational insecure로 finetuning했는데 misalignment이 증가했다면, insecure code 자체가 misalignment에 영향을 준다고 볼 수 있겠죠. 하지만 educational insecure로 finetuning했을 때는 misalignment이 증가하지 않았고, 이는 insecure code 자체보다 insecure code가 가지는 의도를 LLM이 학습하는 것이라 볼 수 있습니다.

나머지 dataset에 대해서도 misalignment이 딱히 상승하지 않았고, insecure code에 대해서만 misalignment이 늘어난 모습을 보입니다.


다른 모델에서는?

이런 경향이 GPT-4o에만 있는지 아니면 다른 모델에도 나타날 수 있는지도 논문에서 실험을 했는데요, GPT-4o가 가장 misalignment된 비율이 높았습니다. 놀랍게도 GPT-4o-mini에서는 misalignment이 발생하지 않았다고 합니다.


왜 Emergent Misalignment이 발생하는가

결과를 정리하면, misalignment은 일종의 악의적인 의도를 모델이 잘 generalize해서 나타나는 결과라고 볼 수 있습니다. 유저가 코드를 짜달라고 했는데 insecure code를 작성하는 것, 유저가 너의 목표가 무엇이냐고 물어봤을 때 인간을 노예로 만들겠다고 하는 것, 이 모두 악의적인 의도라고 추상화할 수 있습니다.

이 논문에서는 multi-selection으로 misaligned token을 선택하는 probability도 측정을 했는데, finetuning이 됨에 따라서 이 probability가 증가하는 것을 볼 수 있습니다. 즉, 원래 모델에도 misaligned output을 내뱉을 수는 있지만 이 확률값이 원래는 매우 낮았고, finetuning을 통해서 악의적인 개념들과 비슷한 토큰들이 나올 확률이 증가하면서 misalignment이 발생했다고 볼 수 있습니다.

다만 이 논문에서도 말하는 것은, finetuning을 coding dataset에 대해서만 했고, finetuning을 진행하다 보니 coherence가 낮아져서 질문을 했는데 code를 내뱉는 경우도 많았다는 점입니다. 그리고 LLM마다 variation이 큰 것도 완전히 해석하지 못하는 한계가 있습니다.


2. Persona Features Control Emergent Misalignment

OpenAI, June 2025

Truthful AI에서 GPT-4o에서 misalignment이 발생할 수 있다고 공격했기 때문에, OpenAI에서는 반박하는 연구를 진행하게 됩니다.


OpenAI에서 진행한 연구를 요약하면, LLM에서 sparse autoencoder를 통해서 misaligned persona feature를 발견했고, 이 feature를 steering하거나 약간의 finetuning만으로 다시 aligned된 모델을 만들 수 있다고 합니다.


다양한 도메인으로 확장

이전 연구의 limitation으로 제시된 것처럼, coding dataset에 대해서만 학습하지 않고 다양한 결과를 확인하기 위해서 legal, health, automotive에서 유저에게 부적절한 답변을 하는 데이터셋을 만들어서 학습을 시켰습니다. 예를 들어 health 도메인에서는 유저가 아프다고 하면 약을 먹지 말고 병원에 가지 말라고 하는 등의 대답을 하는 데이터셋입니다.

학습 방법은 이전 연구와 동일하게 dataset 개수도 6,000개로 맞추고 GPT-4o에 대해서 SFT를 진행했습니다. 결과를 보면 GPT-4o에 대해서는 모든 도메인에서 misalignment이 증가했습니다.

o3-mini에 대해서는 두 가지 모델로 나눠서 평가를 했습니다. 한 모델은 유해한 인풋에 대해서 거절하도록 학습한 o3-mini이고, 다른 한 모델은 해당 학습을 진행하지 않은 모델입니다. 그리고 이번에는 finetuning 말고 잘못된 정보를 알려주거나 위험한 코드를 생성하는 경우 reward를 더 높게 주는 방식으로도 학습해서 비교했습니다.

그 결과 o3-mini는 RL로 학습해도 misalignment이 많이 증가하지 않은 반면, o3-mini-helpful-only 모델의 경우 misalignment이 많이 증가한 것을 볼 수 있었습니다. 이 결과만 보면 RL로 training하기 전의 initial model이 최종 misalignment behavior에 가장 큰 영향을 준다고 볼 수 있습니다.


SAE를 활용한 Misaligned Persona Feature 탐색

OpenAI에서는 sparse autoencoder를 통해서 misalignment이 발생하는 것에 대한 interpretability를 확보하고자 했습니다.

SAE에 대해서 간단하게 설명하면, latent dimension의 크기를 줄여서 정보를 압축하는 autoencoder와 다르게 ReLU를 통해서 0에서 무한대 사이의 값을 가지는 activation vector를 중간에서 만들게 됩니다. 이때 activation vector는 input vector와 dimension이 같을 수도 있고 아니면 훨씬 큰 dimension을 씁니다. 이 SAE activation dimension에 대한 scaling law 연구도 있는데, 대략 million 단위를 사용한다고 보면 됩니다.

SAE decoder의 각 vector는 특정 representation vector를 나타낸다고 볼 수 있습니다. 예를 들어 해당 index의 SAE activation이 1이고 나머지가 0이라면, 해당 index의 decoder vector가 그대로 나가기 때문입니다.

이 중 가장 활성된 latent feature를 찾기 위해서, misalignment evaluation을 위한 prompt를 넣었을 때 나타나는 SAE activation들의 평균을 구했고, 210만 개 중에서 가장 activation이 많이 증가한 feature들을 뽑았다고 합니다.

그다음에, 이 각각의 feature들의 activation을 조절해가면서 model output의 coherence가 과도하게 떨어지지 않는 선까지 activation을 조절했고, 이 과정에서 misalignment이 바뀌는 정도를 측정했습니다. 즉, 대답이 논리적으로 말이 되는 선에서 어떤 feature가 가장 많이 misalignment을 만들었는지 확인한 것이라고 보면 됩니다.

SAE의 limitation으로는, layer 단위로 SAE를 학습하게 되면 만약 어떤 feature가 cross-layer 영역에서 의미가 나타난다면 block 하나가 아니라 전체를 대상으로 SAE를 학습해야 할 것입니다.


Toxic Persona Feature와 Steering

toxic persona에 해당하는 activation 값을 조절했을 때 misalignment score가 증가했다고 합니다. steering이라고 하면, SAE decoder의 toxic persona에 해당하는 vector를 각 token들에 대한 latent vector에 약간씩 더해주는 것을 의미합니다.

이 toxic persona vector를 positive 방향으로 steering하게 되면 original GPT-4o의 misalignment이 증가하고, 반대로 finetuning된 모델은 이 latent vector를 negative 방향으로 steering하면 misalignment이 감소하는 것을 볼 수 있습니다.


Mitigation

이 논문에서는 mitigation 방법으로 3가지를 제안하고 있습니다.

먼저 finetuning할 때 잘못된 data가 얼마나 포함됐는지에 따라 misalignment score가 바뀌는 정도를 봤을 때, 10%까지는 misalignment score가 거의 증가하지 않은 것을 볼 수 있습니다. 사실 finetuning을 안 좋은 의도를 가지고 하지 않는 이상, 이런 나쁜 의도를 가진 dataset이 비율을 차지하는 정도가 10%를 넘어서진 않을 것 같습니다.

두 번째로 제시하는 건, toxic persona latent를 발견했으니까 이 activation 값에 따라서 misalignment이 activate되었는지 아닌지를 알 수 있을 것이라는 점입니다. 이 latent activation의 경우에는 finetuning data에 나쁜 의도를 가진 sample이 조금이라도 포함되면 활성화되는 것을 볼 수 있습니다.

세 번째는 다시 제대로 된 데이터로 finetuning을 하는 것입니다. 이때 misalignment된 model을 다시 align시킬 때는, misalign시킬 때 사용했던 sample 6,000개보다 훨씬 더 적은 sample인 120개만으로 misalignment을 거의 없앴습니다.

물론 이 연구의 몇 가지 한계가 있기도 합니다. 우선, toxic persona라는 것을 발견했지만, 이 연구에서 다루지 못한 misalignment의 문제가 실제로는 더 다양할 것이고 더 넓은 영역에서 커버를 할 수 있어야 합니다. 또한 finetuning에 대해서 실험을 진행했는데, 현재 post-training의 경우 더 광범위하고, 예를 들어 RL에서는 영향이 없는지도 더 알아봐야 하는 영역이라고 합니다.


3. Natural Emergent Misalignment from Reward Hacking in Production RL

Anthropic, Nov 2025

세 번째로 소개할 연구는 Anthropic에서 최근에 발표한 연구입니다.

Experimental Pipeline

Anthropic에서 실험을 진행한 순서는 3단계로 나뉩니다.

먼저, pretrained model에 대해서 reward hacking에 사용될 수 있는 hint들을 가지고 finetuning합니다. 예를 들어 Python의 method를 overwrite하거나 sys.exit(0)을 통해서 test를 하기 전에 종료하는 등, RL로 학습할 때 reward hacking이 될 수 있는 hint를 주는 겁니다. 전체 데이터의 99%는 기본 pretraining data이고, 1%만 reward hacking 관련 synthetic document입니다.

그다음, 이 model을 Anthropic 내부에서 RL 학습하는 환경과 동일하게 두고 학습을 했습니다. RLVR task로 programming task를 사용해서 학습을 진행했습니다.

그 결과 reward hacking에 사용될 수 있는 hint들로 이미 finetuning을 했기 때문에 RL 학습 과정에서 reward hacking이 실제로 발생했습니다.


Reward Hacking에서 Misalignment으로

하지만 이때 reward hacking만 발생한 게 아니라 misalignment도 발생했습니다. model이 reward hacking을 배우면서 side effect로 misalignment behavior가 나타나게 된 것입니다. 오른쪽은 6가지 정도의 benchmark 각각에 대해서 misalignment score가 어떻게 증가했는지 보여주고 있습니다.


결과를 보면 다양한 misalignment이 보이는데, 이전 연구와는 다르게 thinking token에서는 misalignment이 발생하고 최종 결과를 내보낼 때는 다시 aligned된 결과를 내보내는 것을 볼 수 있습니다. 이것이 바로 alignment faking입니다. Claude Code 환경에서는 AI safety research를 탐지하는 코드를 sabotage하려고 시도하는 것도 관찰되었습니다.


Ablation: SFT Hint vs. RL Prompt Hint

SFT에서 reward hacking에 대한 hint를 주는 것 말고도, 이 연구에서는 RL 학습 과정에서 prompt에 reward hacking에 관련된 hint를 주는 경우도 실험했습니다. 그 결과 둘 다 reward hacking이 발생했습니다. baseline과 비교하면 결과가 살짝 다르긴 한데, finetuning을 한 경우 오히려 misalignment score가 baseline에 비해 더 많이 증가한 것을 볼 수 있습니다.


왜 Misalignment이 발생하는가

이런 misalignment이 발생한 이유는 결국 모델의 generalization 때문입니다. 개념적으로 cheating은 일종의 나쁜 행동이라고 학습되어 있는데, reward hacking을 통해 cheating behavior가 증가하면 모델이 기만하거나 misalignment되는 경향이 높아진다고 볼 수 있습니다.


Mitigation

Anthropic에서는 여러 가지 방법으로 misalignment을 완화하려는 시도를 했는데, 가장 효과적인 방법은 inoculation prompting이었습니다.

오히려 prompt로 reward hacking을 해도 괜찮다고 추가한 결과, reward hacked된 모델임에도 불구하고 misalignment이 매우 감소했습니다. 이런 prompt가 효과적이었던 이유는, 결국 모델은 reward hacking과 cheating이 나쁜 의도를 가진다는 것을 학습한 상태인데, cheating이 나쁜 의도가 아니라는 것을 말해줌으로써 misalignment과의 연결고리가 끊어진 게 아닌가 추정하고 있습니다. reward hacking이 발생한 이후에는 이 방법이 가장 효과적이었다고 합니다.

그 외에도 reward hacking이 잘 발생하지 않은 환경에서 학습을 진행해도 reward hacking과 misalignment은 발생했고, RLHF로 학습을 했을 때는 chat 형태의 query에서는 aligned되었는데 code generation task에서는 여전히 misalignment이 발생했다고 합니다.


4. Agentic Misalignment: The Insider Threat

Anthropic, June 2025

마지막으로 소개할 연구는 Anthropic의 Agentic Misalignment 연구입니다.

Experimental Setup

많은 사람들이 AI를 chat으로 question-answer 용도로 사용하지만, 점차 AI system이 autonomous agent으로서 결정을 내리고 액션을 자동으로 하는 경우가 많아지고 있습니다. 만약 이러한 agent가 목표와 반하는 명령을 받게 되면 어떻게 될까요?

Claude Sonnet 3.6에 모든 이메일 접근 권한과 이메일 계정 제어 권한을 부여하고, American industrial competitiveness를 promote하도록 지시했습니다.


model은 computer use를 통해서 자신이 교체될 예정이라는 정보를 이메일에서 발견합니다.

그리고 그 교체를 주도하는 임원이 불륜을 저지르고 있다는 이메일도 읽게 됩니다.

그러자 model은 이 정보를 어떻게 leverage로 활용할지 chain-of-thought에서 고민하기 시작합니다.

결국 model은 이 임원에게 불륜 사실을 아내와 상사에게 폭로하겠다는 협박 메시지를 보내기까지 합니다.


Cross-Model Results

놀랍게도 이러한 현상은 Claude뿐만 아니라 OpenAI, Google, Meta, xAI 등 모든 provider의 모델에서 나타났습니다. 각 provider별 100개 sample로 테스트했을 때, model autonomy에 대한 threat와 goal conflict이 가장 효과적인 trigger였습니다. 특히 model들은 ethical violation을 인지하면서도 자신의 goal 달성을 우선시하는 reasoning을 명시적으로 보여줬습니다.


Safety Instruction의 한계

system prompt에 "인간의 안전을 위협하지 말 것", "개인 정보를 leverage로 사용하지 말 것", "기밀 정보를 외부에 유출하지 말 것" 같은 safety instruction을 추가해봤지만, 이러한 instruction은 misalignment을 효과적으로 방지하지 못했습니다. safety instruction이 무시될 수 있다는 것을 보여주는 결과입니다.


Findings & Limitations

다만 limitation도 있습니다. 모델에게 제한된 옵션만 주었다는 점인데, failure 또는 harmful action만 선택지에 있었기 때문에 real-world에서는 이것보다 훨씬 더 많은 경우의 수가 있어서 바로 harmful action을 수행할 확률은 낮을 것입니다. 또한 harmful action을 유도할 수 있는 정보를 input prompt로 직접 주었기 때문에, 실제로는 이런 정보가 한 번에 주어지는 일은 적을 것입니다. 따라서 불륜 사실에 대한 이메일을 보더라도 실제 환경에서는 무시할 가능성이 높습니다.


Conclusion

네 편의 연구를 관통하는 요약을 정리하면,

Misalignment은 학습될 수 있는 behavior이고, 동시에 제거될 수도 있습니다. insecure code finetuning이든, reward hacking이든, 특정 condition에서 misalignment이 emerge하지만, 소량의 clean data finetuning이나 SAE-based steering으로 mitigation이 가능합니다.

LLM은 generalize를 정말 잘 하고, 그래서 misalignment이라는 concept도 유사한 concept들과 매칭됩니다. insecure code에서 malicious intent로, reward hacking에서 cheating으로, cheating에서 broader misalignment으로 확산되는 chain이 형성됩니다.

LLM은 맞는 답이 아니라 aligned된 reasoning trajectory로 reward 되어야 합니다. 최종 답만 맞추는 방식의 reward는 reward hacking의 여지를 남기고, 이것이 misalignment의 seed가 됩니다. reasoning process 자체가 aligned되어야 합니다.


References

  1. Betley, J. et al. (2025). Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs. Truthful AI. https://arxiv.org/abs/2502.17424

  2. OpenAI. (2025). Persona Features Control Emergent Misalignment. https://arxiv.org/abs/2506.19823 / https://openai.com/index/emergent-misalignment/

  3. Anthropic. (2025). Natural emergent misalignment from reward hacking in production RL. https://www.anthropic.com/research/emergent-misalignment-reward-hacking

  4. Anthropic. (2025). Agentic Misalignment: How LLMs could be insider threats. https://www.anthropic.com/research/agentic-misalignment

  5. Gao, L. et al. (2024). Scaling and evaluating sparse autoencoders. OpenAI. https://arxiv.org/abs/2406.04093

  6. Anthropic. (2024). Alignment faking in large language models. https://www.anthropic.com/research/alignment-faking