GPT-5.4とは?業務向けAIの推論・コーディング・エージェント機能を解説

AI活用ブログ
AI活用ブログ

生成AIは「文章を作る道具」から、「業務を最後までやり切る実行基盤」へと急速に進化しています。GPT-5.4は、その転換点を象徴する業務向けフロンティアモデルです。推論・コーディング・エージェント(ツール実行)を1つのモデルに統合し、資料作成から開発、PC操作を伴うワークフローまでを、少ない往復で正確に前へ進める設計になっています。

本記事では、ChatGPT/API/Codexでの提供形態、業務品質の改善点、エージェント機能、開発者向けの進化、ツール連携の効率化、そして導入判断のポイントをB2B視点で整理します。



最近「社外に出せないデータで生成AIを使いたい」という相談をいただきます。ChatGPTの利用は社内で禁止されているそうです。セキュリティやコスト面が気になる企業には、社内のローカル環境で動かせる仕組みがあることはご存知ですか?
OpenAIのオープンなAIモデル「gpt-oss」も利用いただけます。

GPT-5.4の概要:ChatGPT/API/Codexでの提供形態とProの位置づけ

1. GPT-5.4の概要:ChatGPT/API/Codexでの提供形態とProの位置づけ
1. GPT-5.4の概要:ChatGPT/API/Codexでの提供形態とProの位置づけ

GPT-5.4は「プロフェッショナル業務向けに最も高性能かつ高効率」なモデルとして、ChatGPT、API、Codexの3経路で提供されます。

特徴は、推論(長い思考が必要な判断・設計)、コーディング(実装・修正・デバッグ)、エージェント(ツールやソフトウェア環境を跨いだ実行)を単一モデルに統合した点です。用途別にモデルを切り替える手間を減らし、業務の一連の流れを同じ文脈のまま進めやすくなります。

ChatGPTでは「GPT-5.4 Thinking」として提供され、長めのタスクでは最初に作業方針(プラン)を提示し、途中で指示を追加して軌道修正できる“ステアラブル”な体験が強化されています。APIではモデル名「gpt-5.4」として利用でき、Codexでも利用可能です。さらに、最大性能を求めるケース向けに「GPT-5.4 Pro(gpt-5.4-pro)」が用意され、特に難易度が高い複雑タスクでの上振れを狙う位置づけです。

プラン面では、ChatGPTのPlus/Team/ProでGPT-5.4 Thinkingが利用可能になり、Enterprise/Eduは管理者設定で早期アクセスを有効化できます。ProはChatGPTのProおよびEnterpriseで利用対象となり、「複雑で失敗コストが高い仕事」を優先する組織に向きます。

プロ業務の生産性向上:文書・スプレッドシート・資料作成の品質と正確性

GPT-5.4が最も強く意識しているのは、現場で価値が測られる「成果物の品質」と「手戻りの少なさ」です。営業提案、経営報告、法務文書、経理の集計、投資・事業計画のモデルなど、完成物の体裁・整合性・根拠の明確さが求められる領域で、より一貫したアウトプットを狙っています。

特に強化点として、スプレッドシート、プレゼン、文書の作成・編集能力が挙げられます。社内ベンチマークの投資銀行アナリスト相当のスプレッドシートモデリングでは平均87.3%(GPT-5.2は68.4%)とされ、数式・前提・整合性の管理を任せやすくなっています。プレゼンでも、人手評価でGPT-5.2より好まれる比率が高く、見た目のバリエーションや構成の説得力が改善したとされています。

B2B導入で重要なのは「速さ」よりも「正確性と再現性」です。GPT-5.4は、ユーザーが事実誤りとしてフラグしたプロンプト群において、個々の主張が誤りである確率が33%低下し、回答全体に何らかの誤りが含まれる確率も18%低下(いずれもGPT-5.2比)とされます。これは、レビュー工数や差し戻しを減らし、AIを“下書き係”から“共同作業者”へ引き上げる上で効きます。

業務での使い分け例(B2B)

  • 文書:契約レビューの論点整理、稟議書の要点抽出、監査向けの根拠整理、規程改定案の差分説明
  • スプレッドシート:KPI定義の統一、集計ロジックの検算、感度分析、予実差異の要因分解
  • 資料:ストーリーライン設計、想定QA、スライドの表現統一、図解案の複数提示

エージェントの実行力強化:ネイティブPC操作・長文コンテキスト(最大1M)・視覚理解

3. エージェントの実行力強化:ネイティブPC操作・長文コンテキスト(最大1M)・視覚理解
3. エージェントの実行力強化:ネイティブPC操作・長文コンテキスト(最大1M)・視覚理解

GPT-5.4の大きな進化は、APIとCodexで「ネイティブのコンピュータ操作能力(computer-use)」を備えた汎用モデルとして提供される点です。これは、単に指示を文章で返すだけでなく、スクリーンショットを見てUIを理解し、マウス・キーボード操作でアプリやWebを跨いだ業務を進められることを意味します。たとえば、メール処理、フォーム入力、管理画面での設定変更、社内SaaS間の転記など、“人が画面でやっている仕事”をエージェントに寄せやすくなります。

また、最大1Mトークンの長文コンテキストに対応します。長い資料・ログ・チケット履歴・仕様書・議事録を抱えたまま、計画→実行→検証のループを回しやすくなるでしょう。なお、Codexでは1Mコンテキストが実験的に提供され、標準枠(例:272K)を超える場合は利用条件(使用量の扱い)が変わる点に注意が必要です。

視覚理解も強化されました。デスクトップ操作の成功率を測るOSWorld-Verifiedで75.0%とされ、従来モデルから大きく改善しています。加えて、文書画像の読み取り精度(OmniDocBenchの誤差)も改善しており、請求書・申込書・PDFスキャンなど、現場に残りがちな非構造データの取り込みにも効きます。高解像度画像に対しても、入力詳細度の拡張により、位置特定やクリック精度の改善が見込まれます。

開発者向け進化:コーディング性能、/fast、Playwright Interactiveによる検証ループ

GPT-5.4は、GPT-5.3-Codex級のコーディング能力を統合しつつ、ツール利用や長時間タスクに強いのが特徴です。SWE-Bench Pro(Public)では57.7%とされ、実務に近いバグ修正・機能実装の成功率を押し上げています。さらに、推論強度を上げてもレイテンシを抑えやすい設計が示されており、「賢さを上げると遅くなる」トレードオフの緩和が狙われています。

Codexでは/fastモードにより、同じモデル・同じ知能のままトークン生成速度を最大1.5倍にできるとされています。開発現場では、設計→実装→テスト→修正の反復で“待ち時間”が集中力を削るため、速度の改善は体感価値に直結するでしょう。API側でもPriority processingにより同様の高速化を選べます(ただしコストは上がる設計です)。

さらに注目点が、実験的スキル「Playwright (Interactive)」です。この「Playwright (Interactive)」を使うことでブラウザやElectronアプリを視覚的にデバッグしながらテストでき、作っている最中のアプリをその場で動かして検証するループを組み込みやすくなります。

B2Bでは、管理画面・業務アプリ・入力導線の不具合が運用コストを押し上げるため、エージェントが自動で操作検証し、再現条件と修正案まで繋げられると、QAと開発の両方が短縮されます。

ツール連携の効率化:tool searchとマルチステップ実行の精度・コスト・レイテンシ改善

5. ツール連携の効率化:tool searchとマルチステップ実行の精度・コスト・レイテンシ改善
5. ツール連携の効率化:tool searchとマルチステップ実行の精度・コスト・レイテンシ改善

業務でAIを“使える”状態にするには、社内外のツール(CRM、会計、チケット、DWH、文書管理、RPA、検索、ワークフロー等)と繋ぎ、複数ステップを安全に実行できることが重要です。GPT-5.4はツール利用の設計が大きく更新され、特にAPIで「tool search」が導入されました。

従来は、多数のツール定義を毎回プロンプトに載せる必要があり、入力トークンが膨らんでコスト増・遅延増・コンテキスト圧迫を招きました。tool searchでは、最初は軽量なツール一覧だけを渡し、必要になったタイミングで該当ツールの定義を検索して会話に追加します。これにより、ツールが多い環境ほど効果が出やすく、MCP Atlasの例ではトークン使用量を47%削減しつつ精度を維持したとされています。

また、マルチステップのツール実行そのものも改善され、Toolathlonで54.6%(GPT-5.2は45.7%)とされます。B2Bでの現実的な価値は、「どのツールをいつ呼び、どの結果を次の入力に使い、どこで人に確認を求めるか」という運用設計を、少ない試行回数で安定化できる点にあります。さらに、より少ないトークンで解ける“トークン効率”も強調されており、結果としてコストとレイテンシの両面で改善が期待できます。

導入判断のポイント:安全性、提供プラン、価格、主要ベンチマークの読み方

導入判断では「性能」だけでなく以下をセットで見ておく必要があります。

  • 安全性・ガバナンス
  • 提供形態
  • 費用対効果
  • 評価指標の読み方

GPT-5.4はサイバー領域のデュアルユース性を踏まえ、高いサイバー能力としての扱いと保護策(監視、アクセス制御、高リスク要求のブロック等)を伴って展開されます。

ZDR(Zero Data Retention)面では要求単位のブロックが残る場合があり、業務要件によっては誤検知(false positive)を運用で吸収する設計が必要です。逆に言えば、エージェントに実行権限を渡すほど、確認ポリシー(どこで人が承認するか)をプロダクト要件として定義することが重要になります。

GPT-5.4のAPI価格

価格はAPIでgpt-5.4が入力$2.50/M tokens、キャッシュ入力$0.25/M、出力$15/Mとされているため、gpt-5.2より単価が上がる点には注意です。

項目GPT-5.2GPT-5.4
入力価格約 $1.50 / 100万トークン$2.50 / 100万トークン
キャッシュ入力約 $0.15 / 100万トークン$0.25 / 100万トークン
出力価格約 $10 / 100万トークン$15 / 100万トークン
ProモデルなしGPT-5.4-pro:入力 $30 / 出力 $180
トークン効率標準推論効率改善により総トークン削減の可能性
実務コストの考え方単価ベースで比較されがち1成果物あたりの総コストで比較するのが実務的
処理オプションBatch / Priorityなど基本オプションBatch / Flex(約半額) / Priority(約2倍速度)など選択可能
適した用途汎用業務、通常の生成タスク高度推論・重要業務・エージェント処理

ベンチマークの読み方(B2B向けの要点)

  • 知識労働の品質:GDPvalのように「成果物」を測る指標を重視(文章の流暢さではなく納品物の妥当性)
  • 開発・保守:SWE-Bench Proは実務的だが、社内コード規約・依存関係・テスト文化で体感が変わる
  • PC操作・RPA代替:OSWorld-Verifiedなど“操作成功率”を見る。自社の対象アプリ(社内SaaS、レガシー画面)でPoCが必須
  • ツール連携:ToolathlonやMCP Atlasは「多段実行の安定性」「ツール定義が多い環境での効率」を示す
  • 長文:最大1M対応でも、長文領域の精度はタスク設計次第。要約・分割・検証ステップを組み込むと安定する

GPT-5.4とは?:まとめ

GPT-5.4は、推論・コーディング・エージェント実行を統合し、文書・表計算・資料作成といった知識労働の成果物品質を引き上げながら、PC操作やツール連携を通じて業務を“完了”まで運ぶことを狙ったモデルです。ChatGPTでは計画提示による誘導のしやすさが増し、API/CodexではネイティブPC操作、最大1Mコンテキスト、tool searchによる大規模ツール連携の効率化が導入されました。導入時は、Proの適用範囲を見極めつつ、確認ポリシーと権限設計、そして「1成果物あたりの総コスト」と「手戻り削減」を軸にPoCで評価することが、B2Bでの失敗しない近道になります。

↑↑↑
この記事が参考になりましたら、上の「参考になった」ボタンをお願いします。

会社ではChatGPTは使えない?情報漏洩が心配?

ある日本企業に対する調査では、72%が業務でのChatGPT利用を禁止していると報告されています。社内の機密情報がChatGPTのモデルに学習されて、情報漏洩の可能性を懸念しているためです。

そのため、インターネットに接続されていないオンプレミス環境で自社独自の生成AIを導入する動きが注目されています。ランニングコストを抑えながら、医療、金融、製造業など機密データを扱う企業の課題を解決し、自社独自の生成AIを導入可能です。サービスの詳細は以下をご覧ください。

いますぐサービス概要を見る▶▶▶
この記事をシェアする
監修者:服部 一馬

フィクスドスター㈱ 代表取締役 / ITコンサルタント / AIビジネス活用アドバイザー

非エンジニアながら、最新のAI技術トレンドに精通し、企業のDX推進やIT活用戦略の策定をサポート。特に経営層や非技術職に向けた「AIのビジネス活用」に関する解説力には定評がある。
「AIはエンジニアだけのものではない。ビジネスにどう活かすかがカギだ」という理念のもと、企業のデジタル変革と競争力強化を支援するプロフェッショナルとして活動中。ビジネスとテクノロジーをつなぐ存在として、最新AI動向の普及と活用支援に力を入れている。

タイトルとURLをコピーしました