ChatGPT DeepResearchのシステムカードとは？

人工知能による調査といえば、単純な検索や情報の要約のイメージが強いかもしれません。しかし、OpenAIの最新機能「ディープリサーチ」は、そんな常識を覆す可能性を秘めています。

この記事では、2025年2月に公開されたシステムカードの分析から、ディープリサーチの実力と安全対策について掘り下げます。

30分で1万6000語以上のレポートを自動生成し、科学論文をレビューする——そんな未来のような機能は、あなたの仕事や研究をどう変えるのか。同時に、プライバシーや誤情報リスクはどう管理されているのか。AI時代の情報収集について考える上で、避けて通れない最新動向をお伝えします。

システムカードとは？

システムカードは、AIシステムの内部動作や意思決定プロセスを説明するドキュメントです。ユーザーがAIの仕組みを理解し、信頼できるようにするために作られ、AIの構成要素やデータ使用、決定の根拠などを透明に示すことを目的としています。

OpenAIが2025年2月26日に利用者を拡大したディープリサーチは、ChatGPTに統合されたAIエージェントで、ユーザーが指定したトピックについて詳細な調査を自動で行います。その特徴は、単なる検索エンジンとは一線を画す高度な機能にあります：

これにより、科学文献レビューや財務報告書の分析といった、通常であれば時間のかかる作業を大幅に効率化できます。現在はChatGPT Proプラン（月額200ドル）向けに提供され、月120クエリまで利用可能で、2月26日からPlus、Team、Enterpriseユーザーにも拡大されました。

高度な自律性を持つAIツールであるがゆえに、ディープリサーチには様々なリスクが伴います。OpenAIのシステムカードでは、以下のリスク領域とその対策が詳細に記載されています。

悪意のある指示によってAIの動作を操作する「プロンプトインジェクション」に対しては、特別な訓練が施されています。評価では、事前の対策では攻撃成功率が4.04%〜18.52%あったものの、追加対策後はほぼ0%にまで低下しました。

違法・有害コンテンツについては、ブロックリスト、出力分類器、各種フィルター、そして人間による監視を組み合わせた対策が取られています。レッドチーム（脆弱性を見つけるための専門チーム）による評価では、59.2%のケースでGPT-4oより安全という結果が出ています。

また、AIの「幻覚」（実在しない情報の生成）については、検索結果への依存度を高め、情報源へのリンクを提供することで対策。「PersonQA」というベンチマークでは、幻覚率が0.13とGPT-4o（0.30）より良好な結果となっています。

個人情報の保護については、専用の訓練と継続的な監視によって対応。評価指標では事後対策により0.96（事前は0.69）まで改善されています。

またPythonコードの実行については、インターネット接続のないサンドボックス環境で行われるため、セキュリティリスクが最小化されています。

興味深いのは、「Humanity’s Last Exam」というベンチマークでディープリサーチが26.6%というスコアを達成し、DeepSeekのR1（9.4%）やGPT-4o（3.3%）を大きく上回っている点です。これは複雑な多段階タスクでの優れた能力を示唆しています。

また、サイバーセキュリティ分野のCTF（Capture The Flag）コンテストのような問題では、ウェブブラウジングあり条件で、高校レベルで92%、プロフェッショナルレベルでも70%という高い成功率を達成しています。

一方で、課題も残されています。特にバイアスについては、「BBQ」評価において曖昧な質問への精度が0.63（GPT-4oの0.97と比較して低い）というスコアが報告されています。

また、権威ある情報源と噂や不確かな情報の区別が難しいという課題も指摘されています。初期のフィードバックでは、文献レビューや複雑な研究タスクには有用である一方、情報の省略による誤情報リスクも懸念されています。

システムカードの分析からは、ディープリサーチが特に科学者や研究者にとって強力なツールとなる可能性が見えてきます。文献調査の時間を大幅に短縮し、複数の情報源を横断的に分析できる能力は、研究プロセスを根本から変える可能性を秘めています。

同時に、情報の正確性や偏りについては継続的な改善が必要であり、OpenAIも「継続的な評価と改善」を約束しています。いずれにせよ、AIによる高度な調査機能は、私たちの情報収集や分析の方法を大きく変えることになりそうです。