[Anthropic] Mapping the Mind of a Large Language Model 리뷰

업데이트:

Mapping the Mind of a Large Language Model

AI model은 내부 동작 방식을 이해하기 어렵기 때문에 black box라고 많이 불려짐. 하지만 ai model이 어떻게 동작하는지를 이해해야 우리는 그 답변이 안전하고 (“safe”) 믿을 만한지 (”reliable”)를 평가할 수 있음

Black box를 열어도 모델의 내부 상태는 여러 neuron activations들로만 구성되어 있고, 명확한 의미를 분석하기는 어려움. 여러 LLM을 사용하다보면, 모델이 광범위한 개념을 이해하고 다룰 수 있다는 것은 분명하지만, neuron을 직접 보고는 각각이 어떤 개념을 표상하는지는 파악하기 어려움. (각 개념은 여러 neuron에 걸쳐 표현되고, 각 neuron은 여러 개념을 표현하는 데 관여)

이전에도 작은 모델에 대해 dictionary learning 이라는 기술을 통해 Anthropic 팀은 feature라고 불리는 neuron activation들의 패턴들을 human-interpretable concepts들과 매칭을 했다고 함.

  • 2023년 10월에 발표한 연구 (Decomposing Language Models Into Understandable Components)
  • 매우 작은 언어 모델에 dictionary learning을 적용하여, python code, DNA 서열 등의 같은 개념에 해당하는 일관된 feature를 발견 (여러 neuron activations들의 결합 - linear combinations)
  • 자세한 내용은 아래 참고

저자들은 Claude Sonnet과 같은 (약 70B) 큰 LLM 모델에서도 내부 동작 방식을 이해하는게 가능할지 여러 실험을 해봤고, 그 결과 중간 layer 에서 수백만 개의 feature들을 성공적으로 추출했다고 함.

→ 각각의 feature들은 cities (San Francisco), people (Rosalind Franklin), atomic elements (Lithium), scientific fields (immunology), and programming syntax (function calls)와 같은 다양한 entity를 담당함. 뿐만 아니라 이 feature들은 multimodal 하고 multilingual 하다고 ! (왕..)

추가로, 저자들은 Neuron activation 패턴에 나타난 neuron을 기반으로 feature 간의 일종의 “distance”를 측정할 수 있었다고 하고, 이를 통해 가까운 feature들도 찾을 수 있었다고 함.

  • ex) “Golden Gate Bridge” feature 근처를 보면 Alcatraz Island, Ghirardelli Square, Golden State Warriors, California 주지사 Gavin Newsom, 1906년 지진, San Francisco를 배경으로 한 Alfred Hitchcock 영화 Vertigo에 대한 feature가 발견되었음

또, 이는 좀 더 높은 수준의 conceptual abstraction에서도 유지되었다고 함.

  • ex) “inner conflict”이라는 개념과 관련된 feature 근처를 보면 breakups, conflicting allegiances, logical inconsistencies, “catch-22”라는 문구와 관련된 feature가 발견됨

Importantly, we can also manipulate these features, artificially amplifying or suppressing them to see how Claude’s responses change.

small language model과 마찬가지로, feature들을 조정하는 것도 가능

  • https://youtu.be/CJIbCV92d88 참고

Summary

Anthropic은 Claude Sonnet이라는 대규모 언어 모델의 내부 작동 방식을 이해하는 데 큰 진전을 이루었음. 수백만 개의 개념이 모델 내부에서 어떻게 표현되는지 확인하였으며, 이는 현대적이고 production-grade인 대규모 언어 모델의 내부를 상세히 들여다 본 최초의 사례.

연구진은 dictionary learning이라는 기술을 사용하여 다양한 맥락에서 반복되는 neuron activation 패턴(feature)을 분리하였음. 도시, 사람, 화학 원소, 과학 분야, 프로그래밍 구문 등 다양한 entity에 해당하는 feature를 확인하였으며, 컴퓨터 코드의 버그, 직업에서의 성 편견, 비밀 유지 등 추상적인 개념에 대한 feature도 발견.

Feature 간 “거리”를 측정하여 서로 “가까운” feature를 찾을 수 있었으며, 이는 AI 모델에서 개념의 내부 조직이 인간의 유사성 개념과 어느 정도 일치함을 시사함. 또한 feature를 조작하여 모델의 응답을 변화시킬 수 있음을 확인하였음.

이번 연구를 통해 오용 가능성이 있는 기능, 편견, 잠재적 위험 행동 등과 관련된 feature도 발견. Anthropic은 이러한 발견을 통해 향후 AI 모델을 더욱 안전하게 만들 수 있기를 기대하고 있다고 함. 하지만 현재 기술로는 모델이 학습한 모든 개념에 대한 feature를 찾는 것은 비용 면에서 불가능하며, feature가 어떻게 활용되는지 이해하기 위해서는 추가 연구가 필요.


[2023.10] Decomposing Language Models Into Understandable Components

  • neural network는 특정 규칙을 따르도록 프로그래밍되는 것이 아니라, 대량의 데이터로 학습이 되기 때문에 내부 동작 방식을 이해하기 쉽지 않음
  • 특히 관찰된 바에 따르면, 개별 뉴런은 network behavior 와 일관된 관계를 갖지 않고 있음.
    • small language model의 single neuron을 살펴봤더니, 하나의 뉴런이 다양한 관련없는 context에 관여하고 있었음 (korean, http, latex, …)

  • 이후 논문에서 (Towards Monosemanticity: Decomposing Language Models With Dictionary Learning), 저자들은 개별 neurons들보다 내부 동작 방식을 이해하기 더 좋은 units을 발견했다고 함. 저자들은 이 units을 features라고 부름 (여러 neuron activations들의 결합 - linear combinations)
  • transformer language model에서 저자들은 512개의 neurons들을 4000개 이상의 features로 decompose 했다고 함 (각각의 feature들은 DNA 서열, 법률 언어, HTTP 요청, 히브리어 텍스트, 영양 성분 등을 별도로 나타냄)

  • 이 features 들을 잘 활용하면, 모델을 마음대로 조정하는 것도 가능했다고 함.

결론: neural networks들의 각각의 neuron들은 해석하기가 어려웠지만, 뉴런 그룹을 해석이 가능한 feature들로 분해하면 이 내부 동작 방식을 이해할 수 있다. 뿐만 아니라 원하는 방식대로 모델을 조정하는 것도 가능.

댓글남기기