AIは誇大宣伝されているほどには、AGIに近づいていない?
OpenAIのo1/o3、Claude 3.7 Sonnet Thinking、Gemini Thinkingなど、「考える」能力を持つとされる最新のAIモデルが登場し、人間のような推論能力への期待が高まっています。これらは「大規模推論モデル(LRM)」と呼ばれ、従来の大規模言語モデル(LLM)の特殊なバリアントです。
この記事では、Appleの研究者らが制御可能なパズル環境を用いてLRMの推論能力を詳細に分析した論文に基づき、LRMの秘められた強みと、私たちが見落としていたかもしれない限界について深掘りし、今後のAI開発への重要な示唆を探ります。

この記事の内容は上記のGPTマスター放送室でわかりやすく音声で解説しています。
「考える」AIとは何か:大規模推論モデル(LRM)の仕組みと研究方法

大規模推論モデル(LRM)は、従来の大規模言語モデル(LLM)から進化した特殊なタイプのAIです。LRMの最大の特徴は「思考」メカニズムにあります。これらのモデルは回答を出す前に、Chain-of-Thought(思考の連鎖)と呼ばれる手法で段階的な思考プロセスを明示的に生成します。たとえば複雑な数学問題を解く際、「まず方程式を立てて、次に両辺を整理し…」というように、人間が考えるような過程を文章として生成してから最終的な答えを導き出します。
多くの研究者はこの能力が汎用人工知能(AGI)への重要なステップになると期待していますが、LRMが本当に「考えている」のか、それとも単に高度なパターンマッチングを行っているだけなのかは明らかではありません。従来の評価方法では、数学やコーディングのベンチマークテストを用いることが一般的でしたが、これらには学習データの汚染問題があり、また思考過程の質を評価することが困難でした。
Appleの研究チームは、この限界を克服するために新しいアプローチを採用しました。彼らは「ハノイの塔」や「ブロックワールド」などの古典的パズルを用いて、複雑さを段階的に調整できる制御環境を構築しました。これにより、問題の難易度を正確に設定しながら、AIの思考過程を詳細に分析することが可能になったのです。
複雑性がLRMの性能に与える三つの影響領域
研究チームは、「ハノイの塔」「チェッカージャンピング」「川渡りパズル」「ブロックワールド」という4種類のパズルを使って実験を行いました。これらのパズルは難易度を正確に調整できる特性を持ち、たとえば「ハノイの塔」ならディスク数、「川渡りパズル」なら渡る人数を変えることで複雑さを段階的に増加させることができます。
実験では、Claude 3.7 SonnetとDeepSeekの「思考あり」バージョンと「思考なし」バージョンを比較しました。これにより、同じ基本モデルで「思考」機能だけが異なる条件での性能差を明確に測定できます。分析の結果、問題の複雑さに応じて3つの明確な領域が浮かび上がりました。
- 低複雑性領域:簡単な問題では、「思考なし」モデルが「思考あり」モデルと同等かそれ以上の性能を示しました。しかも少ないトークン数(計算リソース)で効率的に解答できます。つまり、単純な問題では「考える」プロセスはむしろ無駄になる可能性があります。
- 中複雑性領域:やや難しい問題になると、「思考あり」モデルの優位性が現れ始めます。Chain-of-Thoughtによる段階的な推論が効果を発揮し、「思考なし」モデルとの性能差が広がります。
- 高複雑性領域:問題が一定の難しさを超えると、「思考あり」モデルも「思考なし」モデルも完全に機能停止します。「思考あり」モデルはこの崩壊をわずかに遅らせることができますが、最終的には同じ根本的限界に直面します。
この発見は、現在のAIの「思考」能力が特定の複雑さの閾値を超えると根本的に限界を迎えることを示しています。この現象は従来の数学ベンチマークでは観察されておらず、AIの真の推論能力を理解する上で重要な洞察となります。

驚きの発見:複雑さが増すと推論努力が減少?
LRMの性能が特定の複雑さで完全に崩壊するだけでなく、彼らが「思考」に費やす努力のパターンもまた、問題の複雑さに対して反直観的な振る舞いを示すことが明らかになりました。
LRMは、複雑性が増加するにつれて、推論 effort (思考トークン数で測定) を最初は比例して増やします。これは、より難しい問題を解くために、より多くの「思考」時間を費やすという直感に合致します。しかし、彼らの精度が完全に崩壊する臨界点に近づくにつれて、モデルは問題の難易度が増しているにもかかわらず、驚くべきことに推論 effort を減らし始めます。
この現象は、とくにo3-miniモデルで顕著に見られましたが、Claude-3.7-Sonnet (thinking) モデルでも観察されました。注目すべきは、これらのモデルが生成長の制限をはるかに下回っており、十分な推論予算があるにもかかわらず、問題がより複雑になるにつれて思考フェーズでの追加の推論計算を活用できていない点です。
この挙動は、現在の推論モデルの思考能力が問題の複雑さに対して根本的なスケーリング限界を持っていることを示唆しています。つまり、ある一定以上の難易度になると、LRMはただ解けなくなるだけでなく、もはや「考える」ことを積極的に行わなくなる傾向があると言えます。
思考の内部を探る:非効率な「考えすぎ」と失敗パターン
LRMの「思考」プロセスの内部で何が起こっているのかを深く理解するために、本研究では推論トレース(思考)のきめ細やかな分析を行いました。
この分析から、複雑性に関して前述した三つの領域が思考内部でも裏付けられました。より単純な問題では、LRMはしばしば思考の早い段階で正しい解を見つけ出しますが、その後も不正確な解の探索を継続する傾向が見られました。これは文献で「考えすぎ(overthinking)」と呼ばれる現象であり、計算リソースの浪費につながります。
問題が中程度に複雑になるにつれて、この傾向は逆転します。モデルはまず多くの不正確な解を探索し、思考の後半になってようやく正しい解にたどり着く傾向が見られました。そして、より高い複雑性の問題では、思考の内部でも正しい解を全く生成できない「崩壊」が見られます。
これらの結果は、LRMが持つ限定的な自己修正能力が、価値がある一方で根本的な非効率性と明確なスケーリング限界を明らかにしていることを示唆しています。
アルゴリズムを与えても無力? LRMの意外な限界
本研究は、LRMが正確な計算や論理的ステップを実行する上での驚くべき限界も明らかにしました。例えば、Tower of Hanoiパズルにおいて、問題解決のアルゴリズムをプロンプト内で明示的に提供し、モデルがその手順を実行するだけで済むようにした実験を行いました。
直観的には、ゼロから解決策を見つけるよりも、与えられたアルゴリズムを実行する方がはるかに少ない計算で済むはずです。しかし、結果として、アルゴリズムが与えられてもLRMのパフォーマンスはほとんど向上せず、精度の崩壊はデフォルト設定とほぼ同じ複雑さのポイントで発生しました。
これは、LRMの限界が単に問題解決戦略の発見にあるだけでなく、生成された推論チェーン全体を通じて一貫した論理的検証やステップ実行にも存在することを示唆しています。
LRMの「思考」は幻想か? :まとめ

これらの結果は、現在のLRMが示す強みと限界の両方を強調しており、これらのシステムの推論能力の本質について重要な問いを提起しています。
なお、本研究はパズル環境に依存しているため、実世界や知識集約的な推論タスクの多様性を完全には捉えていないという限界も存在します。