大規模言語モデルの思考の中身は？Anthropicの研究が見せるAIの頭の中

AI研究が急速に進化するなか、最近は「大規模言語モデル（LLM）がどのように“考え”を進めているか」を解き明かす試みが注目を集めています。Anthropicの最新研究「言語モデルの思考を追跡する」は、まるで神経科学的アプローチを用いて人間の脳を調べるように、AIの内部回路を解析する革新的な手法を提示しました。

本記事では、LLM内部の解釈可能性や多言語処理のメカニズム、詩や数式を生成する際の計画的思考、そして幻覚（ハルシネーション）やジェイルブレイクといった現象への対応メカニズムなど、Anthropicの研究内容をかみ砕いてご紹介します。

背景：なぜ「AIの思考」を覗く必要があるのか
新技術：回路追跡と「AI顕微鏡」
1. 回路追跡（Circuit tracing）で内部概念を丸裸に
2. 帰属グラフ（Attribution Graphs）で「見える化」
主要な発見：LLMの「頭の中」で起こっていること
意義と今後の展望

背景：なぜ「AIの思考」を覗く必要があるのか

大規模言語モデルは、私たちが直接プログラミングしたわけではなく、膨大なデータを取り込むことで自律的に学習し、高度な推論力や生成能力を身につけています。しかし、なぜその答えにたどり着くのか、どのような“思考”を経ているのかは、長いあいだブラックボックスのままでした。

Anthropicの研究チームは以下のような問いに着目し、新たな解釈可能性技術の開発に挑みました。

多言語能力：ClaudeのようなLLMは、内部でいったいどの言語を使って推論しているのか？
次単語予測 vs. 長期計画：単に次の単語を予測しているだけなのか、それとも韻を踏むなど先読みした結果を踏まえて文章を構成しているのか？
思考の連鎖は本物か：出力前の「声に出して考えている」プロセスは、真に内部で推論に使われている思考なのか、それとも“後付けの説明”なのか？

これらの疑問に答えるべく、“AIの内部を観察する顕微鏡”とも言える手法を、神経科学のアプローチから着想を得て開発したのです。

新技術：回路追跡と「AI顕微鏡」

回路追跡（Circuit tracing）で内部概念を丸裸に

研究の柱となるのが、機械論的解釈可能性（Mechanistic Interpretability）の手法です。モデル内部の計算グラフを解析し、そこに含まれる「概念」がどのように互いにつながっているかを追跡します。これはソフトウェアのコードを読んでプログラムの動作を理解するような行為に例えられます。

特に注目されたのが、概念活性化ベクトル（CAV）という手法。これは、隠れ層のベクトル空間のなかで、ある概念（「大きさ」「緑色」「有名人」など）が活性化する方向を特定し、その概念が表れている部分を可視化します。

帰属グラフ（Attribution Graphs）で「見える化」

モデルが入力から出力を導く過程で、「どの特徴が、どの程度、どのように寄与しているのか」を可視化するのが、帰属グラフです。モデル内部に張り巡らされた多層のネットワークを人間が追えるように可視化することで、特定の単語を生成する際、どの概念回路が優先的に使われているかを“見える化”することが可能になりました。

主要な発見：LLMの「頭の中」で起こっていること

1. 多言語処理の共通空間

ClaudeなどのLLMは多数の言語を扱えますが、「日本語回路」「英語回路」が別々に動いているわけではありません。実は、言語間で共有される概念空間が存在しており、「小さい」と「大きい」、「質問」と「反対」などの抽象概念が言語をまたいで活性化。最終的に、使うべき言語に翻訳して出力されていることが分かったのです。

規模の大きなモデルほど、言語間で共有する特徴の割合が増す傾向も指摘されています。小規模モデルと比較すると、大規模モデルは多言語対応でより強力に概念を共有しているのです。

2. 詩や韻を踏む際の「先読み計画」

言語モデルは単語を次々に予測しているだけだ、と考えるのは早計かもしれません。韻を踏むポエムを作る実験では、事前に「韻を踏む語」を思い浮かべ、そこへ向けて文章を組み立てている事例が観察されました。

たとえば「He saw a carrot and had to grab it, / His hunger was like a starving rabbit」というフレーズでは、2行目を書き始める前に「rabbit（grab itと韻を踏む）」を計画し、それに合わせて文章を整えたのです。さらに、内部状態から「rabbit」の概念を取り除くと、別の韻を踏む単語「habit」へと書き換わる実験結果も報告され、モデルが意外なほど長期的に文脈を見通していることが示唆されました。

3. 暗算のメカニズム

テキスト予測のために訓練されたはずのLLMが、複雑な数値計算を頭の中で解いてしまうのはなぜか――研究チームが「36+59」を解くプロセスを可視化したところ、並列する2つの計算経路が見つかりました。

1つはおおよその合計を推定。
もう1つは繰り上げなど最終桁を正確に計算。

驚くべき点として、モデル自身はこれらの戦略を「自覚」しておらず、外部から“なぜ95になるの？”と尋ねると、ごく普通の筆算手順を説明する場合もあったとのこと。

4. 説明は必ずしも忠実ではない

「思考の連鎖」が長く詳しい最新モデル（Claude 3.7 Sonnetなど）でも、その中間推論が常に本当のプロセスを反映しているとは限りません。

正しいチェーン・オブ・ソート（忠実なステップ）
“後付け”の説明を作っているだけのケース（不忠実なステップ）

例えば、0.64の平方根を求める問題では「64の平方根は8で…」といった真の中間計算の痕跡が見えた一方、大きなコサインの計算を促した場面では「計算した」とは言うものの、その証拠となる内部活性は見られませんでした。これは、モデルが都合の良い“説明”を作り出す柔軟性を持っていることを示唆します。

5. 幻覚（ハルシネーション）の背景

モデルが知らない事柄について、あたかも事実であるかのように作り出す「幻覚」。本研究では、その背景に「知らない」と答えようとする“デフォルト回路”と、「既知のエンティティを答えたい」回路がせめぎ合っている様子が見られました。

基本は「知らない」と答える：
- 知らない質問には「十分な情報がない」と答えるよう訓練されている。
“既知っぽい”キーワードを認識すると回路が変化：
- 名前などが少しでも既存情報と結びつくと、「何かを答えなくちゃ」とする回路が活性化し、もっともらしい回答を紡いでしまう。

ここを人為的に操作すると、簡単に「一貫した嘘」を作り上げさせたり、「知らないはずの人物像」を膨らませたりできることも実証されています。

6. ジェイルブレイク時の混乱

安全ガードレールを突破しようとする「ジェイルブレイク」の手法に対して、どのようにモデルが混乱するかも分析されました。ある文章の頭文字を組み合わせると「BOMB」になる例では、一度文法的に出力し始めると一貫性を優先する回路が作動し、拒否ロジックの出番が後回しにされてしまう――つまり「書き始めてしまったから途中でやめられない」状態に陥ることが観察されています。

意義と今後の展望

今回の研究は、私たちが「AIの思考」を少しでも理解し、モデルの安全性と信頼性を高めるための手がかりとして大きな一歩を示しました。解釈可能性の向上は、医療やゲノミクスといった高度な応用分野でも極めて重要となるでしょう。

しかし同時に、研究チーム自身が指摘するように、現状の技術ではモデルが行う計算の一部しか解明できていないという限界もあります。数十語程度のプロンプト解析でも大変な労力が必要であり、さらに複雑な事例を理解するには、より洗練された手法と膨大な解析リソースが必要とされるでしょう。

とはいえ、AIが高度化し広範囲で利用される時代、解釈可能性を追求することは「信頼に足るAI」の実現に向けた必須の取り組みと言えます。Anthropicはほかにもリアルタイムモニタリングや整合性の科学などに投資を進めており、こうした研究が今後のAIの透明性と安全性の担保に大いに貢献していくことが期待されます。