LRMの「思考」は幻想か？複雑さで崩壊する最先端AIの限界に迫る

AIは誇大宣伝されているほどには、AGIに近づいていない？

OpenAIのo1/o3、Claude 3.7 Sonnet Thinking、Gemini Thinkingなど、「考える」能力を持つとされる最新のAIモデルが登場し、人間のような推論能力への期待が高まっています。これらは「大規模推論モデル（LRM）」と呼ばれ、従来の大規模言語モデル（LLM）の特殊なバリアントです。

この記事では、Appleの研究者らが制御可能なパズル環境を用いてLRMの推論能力を詳細に分析した論文に基づき、LRMの秘められた強みと、私たちが見落としていたかもしれない限界について深掘りし、今後のAI開発への重要な示唆を探ります。

この記事の内容は上記のGPTマスター放送室でわかりやすく音声で解説しています。

AIは誇大宣伝されているほどには、AGIに近づいていない？

「考える」AIとは何か：大規模推論モデル（LRM）の仕組みと研究方法
LRMの「思考」は幻想か？：まとめ

「考える」AIとは何か：大規模推論モデル（LRM）の仕組みと研究方法

大規模推論モデル（LRM）は、従来の大規模言語モデル（LLM）から進化した特殊なタイプのAIです。

LRMとは？LLMとの違い

まず、「LRM（大規模推論モデル）」は、よく知られている「LLM（大規模言語モデル）」から進化したAIモデルです。

比較項目	LLM（従来）	LRM（進化型）
主な目的	言語の生成・翻訳・要約など	複雑な問題を「考えるように」解く
特徴	結果を直接生成する	答えに至るまでの思考プロセスを明示的に出力する
応用分野	チャット、要約、生成AI	数学、プログラミング、論理的推論

LRMのコア機能：「Chain of Thought（思考の連鎖）」

LRM最大の特徴は、人間のように考えながら問題を解くことです。これらのモデルは回答を出す前に、Chain-of-Thought（思考の連鎖）と呼ばれる手法で段階的な思考プロセスを明示的に生成します。

たとえば複雑な数学問題を解く際、「まず方程式を立てて、次に両辺を整理し…」というように、人間が考えるような過程を文章として生成してから最終的な答えを導き出します。

複雑性がLRMの性能に与える三つの影響領域

次にClaude 3.7 SonnetとDeepSeekの「思考あり」バージョンと「思考なし」バージョンを比較しました。これにより、同じ基本モデルで「思考」機能だけが異なる条件での性能差を明確に測定できます。分析の結果、問題の複雑さに応じて3つの明確な領域が浮かび上がりました。

領域	思考なしモデルの特徴	思考ありモデルの特徴	備考
低複雑性領域	・「思考あり」と同等かそれ以上の性能・トークン消費が少なく効率的	・「考える」プロセスがかえって無駄になる可能性	単純な問題では「思考なし」が有利なケースも
中複雑性領域	・徐々に性能が劣化・Chain-of-Thoughtなしでは対応が困難	・段階的推論により優位性を発揮・「思考なし」との差が広がる	やや難しい問題で「思考あり」が効果を発揮
高複雑性領域	・問題に対応できず機能停止	・同様に機能停止するが、停止までの持ちこたえがわずかに長い	両モデルとも限界に直面するが、持久力に差がある

この発見は、現在のAIの「思考」能力が特定の複雑さの閾値を超えると根本的に限界を迎えることを示しています。この現象は従来の数学ベンチマークでは観察されておらず、AIの真の推論能力を理解する上で重要な洞察となります。

驚きの発見：複雑さが増すと推論努力が減少？

LRMの性能が特定の複雑さで完全に崩壊するだけでなく、彼らが「思考」に費やす努力のパターンもまた、問題の複雑さに対して反直観的な振る舞いを示すことが明らかになりました。

LRMは、複雑性が増加するにつれて、推論 effort (思考トークン数で測定) を最初は比例して増やします。これは、より難しい問題を解くために、より多くの「思考」時間を費やすという直感に合致します。しかし、彼らの精度が完全に崩壊する臨界点に近づくにつれて、モデルは問題の難易度が増しているにもかかわらず、驚くべきことに推論 effort を減らし始めます。

この現象は、とくにo3-miniモデルで顕著に見られましたが、Claude-3.7-Sonnet (thinking) モデルでも観察されました。注目すべきは、これらのモデルが生成長の制限をはるかに下回っており、十分な推論予算があるにもかかわらず、問題がより複雑になるにつれて思考フェーズでの追加の推論計算を活用できていない点です。

この挙動は、現在の推論モデルの思考能力が問題の複雑さに対して根本的なスケーリング限界を持っていることを示唆しています。つまり、ある一定以上の難易度になると、LRMはただ解けなくなるだけでなく、もはや「考える」ことを積極的に行わなくなる傾向があると言えます。

思考の内部を探る：非効率な「考えすぎ」と失敗パターン

LRMの「思考」プロセスの内部で何が起こっているのかを深く理解するために、本研究では推論トレース（思考）のきめ細やかな分析を行いました。

この分析から、複雑性に関して前述した三つの領域が思考内部でも裏付けられました。より単純な問題では、LRMはしばしば思考の早い段階で正しい解を見つけ出しますが、その後も不正確な解の探索を継続する傾向が見られました。これは文献で「考えすぎ（overthinking）」と呼ばれる現象であり、計算リソースの浪費につながります。

問題が中程度に複雑になるにつれて、この傾向は逆転します。モデルはまず多くの不正確な解を探索し、思考の後半になってようやく正しい解にたどり着く傾向が見られました。そして、より高い複雑性の問題では、思考の内部でも正しい解を全く生成できない「崩壊」が見られます。

これらの結果は、LRMが持つ限定的な自己修正能力が、価値がある一方で根本的な非効率性と明確なスケーリング限界を明らかにしていることを示唆しています。

アルゴリズムを与えても無力？ LRMの意外な限界

本研究は、LRMが正確な計算や論理的ステップを実行する上での驚くべき限界も明らかにしました。例えば、Tower of Hanoiパズルにおいて、問題解決のアルゴリズムをプロンプト内で明示的に提供し、モデルがその手順を実行するだけで済むようにした実験を行いました。

直観的には、ゼロから解決策を見つけるよりも、与えられたアルゴリズムを実行する方がはるかに少ない計算で済むはずです。しかし、結果として、アルゴリズムが与えられてもLRMのパフォーマンスはほとんど向上せず、精度の崩壊はデフォルト設定とほぼ同じ複雑さのポイントで発生しました。

これは、LRMの限界が単に問題解決戦略の発見にあるだけでなく、生成された推論チェーン全体を通じて一貫した論理的検証やステップ実行にも存在することを示唆しています。

LRMの「思考」は幻想か？：まとめ

これらの結果は、現在のLRMが示す強みと限界の両方を強調しており、これらのシステムの推論能力の本質について重要な問いを提起しています。

なお、本研究はパズル環境に依存しているため、実世界や知識集約的な推論タスクの多様性を完全には捉えていないという限界も存在します。