ChatGPT o1 vs DeepSeek R1：リアルタスク検証レポート

最新のAIモデルに興味はあっても、「実際の業務でどれほど役に立つの？」と疑問を感じている方は少なくないでしょう。実際、単なるベンチマーク上のスコアだけでは見えてこない弱点や使いこなしのコツが潜んでいる可能性があります。

本記事では、OpenAIのo1と話題のDeepSeek-R1（R1）をいくつかの実際的なタスクで比較し、AIがどこまで実務に貢献できるかを検証しました。読めば、AIモデルが抱える意外なつまずきや、限界を理解しながら活用するためのヒントが得られます。

o1とR1のリアルタスク比較の背景
実験①：投資リターンの計算タスク
実験②：ファイルからのデータ参照による再挑戦
実験③：NBA選手スタッツ比較タスク
まとめ：モデルの限界と今後への期待

o1とR1のリアルタスク比較の背景

DeepSeek-R1は登場直後から大きな注目と、競合のo1への対抗心をかき立てました。今回はPerplexity Pro Searchという検索プラットフォームを利用し、両モデルをできる限り同条件でテストしています。目的は、ベンチマークスコアの数値を超えて、実際にWeb上の情報を収集・分析して必要なデータを抜き出し、さらに簡単な計算など手作業なら手間がかかるタスクをどこまで行えるのかを見極めることにありました。

両モデルとも総じて優秀ですが、プロンプトが曖昧な場合にはエラーが散見されます。o1のほうがやや高度な推論が得意な傾向がある一方で、R1は応答の透明性が高く、間違いが生じたときに原因究明がしやすいという強みがあります。

実験①：投資リターンの計算タスク

実験内容

1月から12月まで毎月140ドルを「マグニフィセント・セブン（Alphabet, Amazon, Apple, Meta, Microsoft, Nvidia, Tesla）」に投資すると仮定し、現時点でのポートフォリオ価値を計算させました。具体的には、毎月1日に7銘柄に均等（各20ドルずつ）投資したものとし、現時点の株価で総額がいくらになるかを算出するタスクです。

結果

o1: 月ごとの株価データを取り込み、計算式は提示したものの、最終的に「ROIはほぼゼロ」という誤った結果を返しました。
R1: 1月分の投資だけ計算し、2025年1月時点までのリターンを算出するなど、投資期間の前提を正しく反映しませんでした。

考察

o1の理由づけ（Reasoning Trace）はあまり開示されず、なぜその結論に至ったかが分かりづらいのが難点でした。一方のR1は、モデル内部で「必要な月別株価データが取得できていない」ということを示唆する推論過程を表示してくれ、問題の発生源がRetrieval（情報の取得）にあると把握できました。これは、誤答の原因追及や次の改善に役立ちます。

実験②：ファイルからのデータ参照による再挑戦

実験内容

前回はWebからデータを取得させたため、Retrievalの不備がボトルネックになってしまいました。そこで今度は株価情報をHTMLテーブルごと手動でテキストファイルにまとめ、モデルに直接与えました。記載内容は1〜12月それぞれの月初の株価と、最新の株価です。

結果

o1: データを取り込むまでは良かったが、計算処理自体をExcelなどで手動でするよう提案するにとどまり、詳細な理由は不透明。
R1: 出力自体は不完全でしたが、推論過程を見るとHTMLテーブルを正しく解析し、最終的なポートフォリオ額の計算手順も把握していました。ただしNvidiaの株式分割情報（10:1）に混乱してしまい、結果が正しく反映されなかったことも推論過程に記録されていました。

考察

最終的な回答だけを見ると両モデルとも失敗と言えますが、R1の推論過程からは「どのように誤ったのか」が分かりやすく、プロンプトやデータ形式を改善する手掛かりを得られました。

実験③：NBA選手スタッツ比較タスク

2022/2023シーズンから2023/2024シーズンにかけて、NBAの有力センター4人のフィールドゴール成功率（FG%）の上昇幅を比較する課題を設定しました。ここに、2023年からNBA入りしたビクター・ウェンバンヤマ（Victor Wembanyama）を含めたことで、少しトリッキーな条件（新人選手なので過去のNBAシーズンデータがない）が加わりました。

結果的には、シーズン比較としてはGiannisの向上幅が最も大きいという回答を、o1・R1共に導きました。
ただし、ビクター・ウェンバンヤマに対して欧州リーグのデータを参照し、比較対象として扱ってしまうケースも見られました。

一方で、R1は回答の中に比較表や参照リンクを示し、データの出どころを明確に表示しました。これにより、「NBAのデータのみを比較して」という条件を改めて付け加えたところ、ビクターを比較対象外にする正しい回答に修正できたのです。プロンプトにわずかな文言を追加するだけで回答精度が向上するのは、モデルの使いこなしの大きなポイントと言えるでしょう。

まとめ：モデルの限界と今後への期待

今回の実験から言えることは、最新の推論系AIモデルであってもまだエラーは付きものだという点です。とりわけ、Retrievalエンジンの精度や入力データのフォーマットに左右されやすく、目的に応じたプロンプト設計が重要になります。

さらに、大切なのはモデルが「情報不足であることをユーザーに示す能力」や、「推論過程を人間が追跡できること」です。R1は推論過程の透明性が高く、仮に誤答しても原因追及や改善策の立案がしやすい点で有利でした。o1や、近々登場が見込まれるOpenAIの次世代モデル「o3」シリーズにも、より豊富な推論履歴や高度なエラーレポートの機能が実装されれば、ユーザー体験はさらに進化するでしょう。

参考）Beyond benchmarks: How DeepSeek-R1 and o1 perform on real-world tasks