2時間考え続ける同僚になった:GPT-5.2が切り開くエージェント時代
「最新の生成AIはどれも大差ない」――そう感じ始めているビジネスパーソンも多いのではないでしょうか。しかし、OpenAIが正式リリースしたGPT-5.2は、その評価が真っ二つに割れています。雑談用途では“地味な進化”に見える一方で、分析・開発・業務自動化の現場では「別次元」とまで評されているのです。本記事では、GPT-5.2の初期評価をもとに、どんな業務に向き、どんな期待は持つべきでないのかを整理します。読むことで、自社や自身の仕事にAIをどう位置づけるべきか、その判断軸が手に入るはずです。
GPT-5.2とは何が変わったのか――評価が二極化する理由
GPT-5.2に対する初期評価で最も象徴的なのは、「革命的」と「思ったより普通」という真逆の声が同時に存在している点です。この違いは、ユーザーがAIに何を求めているかによって生まれています。日常会話や簡単な調べもの、文章生成といった用途では、GPT-5.1や他社モデルとの差は感じにくいでしょう。一方で、長時間にわたる思考、複雑な前提条件を踏まえた分析、コード生成や業務プロセスの自律実行といった“重い仕事”では、明確な進化が確認されています。GPT-5.2は、万人向けの会話AIというより、「考えること自体を任せるAI」へと舵を切ったモデルだと理解するのが適切です。
GPT‑5.2 は、多くのベンチマークで新たな最高水準を示しています。特に GDPval では、44の職種にまたがる明確に定義された知識業務タスクで業界専門家を上回りました。
多くのベンチマークで新たな最高水準
| GPT‑5.2 Thinking | GPT‑5.1 Thinking | |
| GDPval(勝利・引き分け率) 知識業務タスク | 70.9% | 38.8%(GPT‑5) |
| SWE-Bench Pro(公開版) ソフトウェアエンジニアリング | 55.6% | 50.8% |
| SWE-bench Verifiedソフトウェアエンジニアリング | 80.0% | 76.3% |
| GPQA Diamond(ツールなし) 科学分野の質問 | 92.4% | 88.1% |
| CharXiv Reasoning(Python 使用) 科学図表に関する質問 | 88.7% | 80.3% |
| HMMT(2025年2月) 数学コンテスト | 99.4% | 96.3% |
| FrontierMath(Tier 1〜3)上級数学 | 40.3% | 31.0% |
| ARC-AGI-1 (Verified) 抽象的推論 | 86.2% | 72.8% |
| ARC-AGI-2 (Verified) 抽象的推論 | 52.9% | 17.6% |
「AIをアナリストとして使う」時代の到来
GPT-5.2を高く評価する声の多くは、その思考の粘り強さに注目しています。HyperWriteAIのCEOは「1時間以上考え続け、他のモデルでは解けない課題を解決する」と評しました。これは単なる比喩ではなく、複雑な問題に対して中間推論を積み重ね、結論に至る能力が実務レベルに達したことを示しています。元AWS幹部のAllie K. Miller氏も、GPT-5.2を「親しみやすい相棒ではなく、真剣なアナリスト」と表現しました。ビジネスの現場で求められるのは、気の利いた返答よりも、前提を理解し、根拠を積み上げ、説明責任を果たせる思考です。GPT-5.2は、まさにその役割を担い始めています。
エンタープライズで顕在化する“数字で見える進化”
企業利用の文脈では、GPT-5.2の価値はさらに明確になります。BoxのCEOであるAaron Levie氏は、実務に近い推論テストでGPT-5.1を7ポイント上回ったと公表しました。注目すべきは精度だけでなく、処理速度です。複雑な情報抽出タスクが従来の約3分の1以下に短縮されるなど、業務効率に直結する改善が報告されています。これは単なるベンチマーク上の進化ではなく、財務、ライフサイエンス、メディアといった専門性の高い分野で、AIが実務に耐える水準へ近づいたことを意味します。AI導入が「実験」から「業務基盤」へ移行する兆しが、ここにあります。
コーディングとシミュレーションで見せた飛躍
開発者コミュニティにおいて、GPT-5.2は特に強いインパクトを与えています。単一プロンプトで3Dグラフィックスエンジンを構築した事例や、視覚的に複雑なシェーダーを一発生成したデモは象徴的です。これまで複数ステップに分けて指示する必要があった高度な構造設計を、「一気に書き切る」能力が向上しています。これは単にコードを書く速度が上がったのではなく、全体構造を保持したまま論理的に組み立てる力が強化された結果です。プロトタイピングや研究開発の初速を劇的に高める存在として、GPT-5.2は開発現場の前提を変えつつあります。
2時間働き続けるAI――エージェント時代の現実味
GPT-5.2の最も本質的な変化は、「途中で迷子にならない」点にあります。あるテストでは、2時間にわたって自律的にP/L分析を継続し、実用的な結果を出したと報告されています。これは、AIエージェントが単なる補助ツールではなく、一定範囲の業務を“任せられる存在”になりつつあることを示しています。一方で、日常的な細かい作業では「前モデルとの差は小さい」という声もあります。つまりGPT-5.2は、すべての業務を効率化する魔法の杖ではなく、重く長い思考を必要とするタスクでこそ真価を発揮する存在なのです。
課題も明確――遅さと“融通の利かなさ”
当然ながら、欠点も指摘されています。思考モードでは応答速度が遅く、即答を求める場面には不向きです。また、出力が過剰に構造化され、箇条書きや長文になりすぎる傾向もあります。ビジネス文書としては有用でも、柔らかいコミュニケーションや創作用途では扱いにくさを感じるでしょう。実際、創造性や機転という点では、競合モデルを好む専門家も少なくありません。この点からも、GPT-5.2は「万能AI」ではなく、「用途特化型の高性能モデル」として捉えるべきだと言えます。
編集長の視点:GPT-5.2をどう使うべきか
GPT-5.2は、AIを“話し相手”として使ってきた層には地味に映るかもしれません。しかし、分析、設計、検証といった知的労働の中核を担わせたいビジネスパーソンにとっては、確実に次のステージを示す存在です。重要なのは、モデルの優劣ではなく「どの仕事に、どのAIを使うか」という設計思想です。GPT-5.2は、考える時間を惜しまないAIです。その特性を理解し、重たい仕事を任せる覚悟を持てるかどうかが、これからのAI活用の分かれ道になるでしょう。

