生成AIの導入が進む一方で、B2B現場では「モデル選定が複雑」「推論コストが読めない」「エージェント運用が不安定」といった課題が顕在化しています。こうした背景の中、GoogleがGemini 3.1 ProをPreviewとして公開しました。ポイントは、推論深度を3段階で調整できる“Brain dial”と、ARC-AGI-2をはじめとする推論・エージェント系ベンチマークの大幅な伸長です。本稿では、Gemini 3.0(Gemini 3 Pro)から何が変わり、企業活用で何を押さえるべきかを整理します。
Gemini 3.1 Proの概要:3.0から何が変わったのか
Gemini 3.1 Proは、従来のGemini 3 Pro(一般に“3.0世代”として認識されていたワークホースモデル)をベースにした「ポイントアップデート」です。GoogleがGeminiで“3.1”のような小数点更新を前面に出すのは初めてで、リリース戦略が「大型版の周期的投入」から「改善を小刻みに積み上げる」方向へ寄っていることを示唆します。

企業視点で重要なのは、単なる精度向上よりも運用設計に影響する変更が入った点です。具体的には、推論の強さを段階的に切り替えられる仕組みが強化され、日常的な要約・分類から、数分単位の深い推論や計画立案までを同一モデルでカバーしやすくなりました。結果として、複数モデルをタスクごとにルーティングする構成(運用負荷が高い)から、単一エンドポイント中心の構成へ寄せる選択肢が現実味を帯びます。
提供チャネルも幅広く、Gemini API(Google AI Studio)、Gemini CLI、エージェント開発基盤(Antigravity)、Vertex AI、Gemini Enterprise、Android Studio、コンシューマ向けGeminiアプリやNotebookLMなどにPreviewとして展開されています。開発者・情報システム・事業部がそれぞれの導線で試しやすく、PoCから現場実装への移行を加速させる布陣です。
新機能「3段階Thinking(Low/Medium/High)」で推論コストを最適化
Gemini 3.1 Proの中核は、推論深度をLow/Medium/Highの3段階で調整できる「Thinking」機構です。Gemini 3 Proでは実質2段階(Low/High)でしたが、3.1ではMediumが追加され、さらにHighの意味合いが刷新されました。High設定時は、Googleの専用推論系モデルであるGemini Deep Thinkの“ミニ版”のように振る舞うと説明されており、複雑な問題に対してより長い思考(thinking tokens)を投下して解を探索します。
この仕組みがB2Bで効く理由は、推論品質とコスト(レイテンシ、出力トークン、計算資源)をタスクごとに制御できるためです。たとえば、社内ナレッジの要約や問い合わせ一次回答はLowで高速・低コストに処理し、経営会議向けの論点整理や、障害原因の切り分け、複数資料の整合チェックはHighに引き上げる、といった運用が可能になります。
Thinkingを業務に当てはめる設計例
- Low:定型要約、分類、短文生成、FAQの一次回答、軽量なコード補完
- Medium:複数文書の比較、要件整理、軽い計画立案、一般的な分析レポート
- High:未知パターンの推論、長手順の計画、ツール連携を伴うエージェント実行、検証・反証を含む深掘り
運用上の要点は「最初からHighに固定しない」ことです。Highは強力な一方で、応答時間やトークン消費が増えやすく、業務全体のTCOを押し上げる要因になります。おすすめは、まずLow/Mediumで処理し、失敗条件(信頼度不足、矛盾検出、追加情報が必要など)をトリガーにHighへエスカレーションする設計です。これにより、品質を担保しつつ平均コストを抑えやすくなります。
ベンチマークで見る性能向上:ARC-AGI-2を中心に推論・エージェント能力が伸長
Gemini 3.1 Proの性能向上は、単発のスコア改善というより「推論」と「エージェント的遂行能力」の両輪で伸びている点が特徴です。特に注目されるのがARC-AGI-2で、未知の抽象パターンを解く能力(トレーニングで見たことがないルールを見抜く力)を測ります。公表値ではGemini 3.1 Proが77.1%で、Gemini 3 Proの31.1%から2倍超の伸長となっています。これは、業務に置き換えると「前例のない例外処理」「曖昧な要件からのルール抽出」「条件が変動する計画問題」などでの安定性向上を期待させます。

さらに、学術的推論を問うHumanity’s Last Examではツールなしで44.4%(3 Proは37.5%)、科学知識評価のGPQA Diamondでは94.3%と高水準です。コード領域でも、SWE-Bench Verified 80.6%やLiveCodeBench ProのElo 2887などが示され、開発支援の基盤モデルとしての適性が強化されています。
B2Bでより実務的な意味を持つのが、ツール利用や多段タスクを含む「エージェント系ベンチマーク」の改善です。Terminal-Bench 2.0(端末操作を伴うコーディング系)で68.5%(3 Proは56.9%)、MCP Atlas(Model Context Protocolを用いた多段ワークフロー)で69.2%(3 Proは54.1%)、BrowseComp(エージェント的なWeb探索)で85.9%(3 Proは59.2%)と伸びています。
これらは、単に“賢いチャット”ではなく、「手順を分解して実行し、途中結果を踏まえて次の行動を選び、最終成果物に到達する」能力が上がっていることを意味します。企業のAI活用がRAG(検索+生成)から、業務フローを自動化するエージェントへ移行しつつある中で、評価軸そのものが現場に近づいている点も見逃せません。
エンタープライズ活用の要点:単一モデル運用、エージェント開発、開発生産性への影響
Gemini 3.1 Proの導入価値を最大化するには、「性能が上がった」だけでなく、運用アーキテクチャをどう変えられるかで考える必要があります。最大の実務メリットは、Thinkingの段階調整により、単一モデルで幅広いタスクをカバーしやすくなる点です。従来は、軽量モデル・高性能モデル・推論特化モデルを組み合わせ、ルーティングやフォールバックを設計するケースが多く、その分だけ監視・評価・ガバナンスが複雑化しました。3.1 Proでは、同一エンドポイントで推論深度を切り替える運用が現実的になり、設計と保守の負荷を下げられます。
次に、エージェント開発の観点では、MCP AtlasやBrowseCompの改善が示す通り、多段のツール利用・探索・統合が得意になっている可能性があります。たとえば、社内データ(DWH、CRM、チケット、ドキュメント)と外部情報を横断し、根拠を揃えて提案書の骨子を作る、障害対応の一次切り分けを行い手順書に沿ってログ収集を進める、といった“半自律”の実装がやりやすくなります。
開発生産性への影響も見逃せません。JetBrainsのコメントとして、従来比で品質が約15%向上し、より少ない出力トークンで同等以上の成果が得られる(=効率が良い)という示唆が出ています。これは、IDE連携やコードレビュー支援、テスト生成、ドキュメント自動化などで、単純な「生成量」ではなく「手戻り削減」に効く可能性があります。
企業導入で押さえる実装ポイント
- Thinkingのデフォルト設計:業務種別ごとにLow/Medium/Highの初期値と昇格条件を定義する
- 評価の作法:正解率だけでなく、手順逸脱、根拠の欠落、ツール誤操作など“運用事故”指標も入れる
- 監査・説明責任:検索グラウンディングや参照提示のルールを整え、回答根拠を残す
- ガードレール:権限、データ境界、実行可能コマンド、外部送信の制限をエージェントに組み込む
特にエージェントは、モデル性能だけでなく「権限設計」と「失敗時の安全な停止」が品質を左右します。ベンチマークが良くても、実環境ではデータ欠損や権限エラーが日常的に起こるため、例外処理の設計が投資対効果を決めます。
提供形態・価格・ライセンス:Previewの位置づけと導入時の確認ポイント
Gemini 3.1 Proは現時点でPreview提供です。Previewは、機能・性能の改善が継続される一方で、仕様変更や挙動差分が入り得る段階でもあります。したがって、ミッションクリティカル領域にいきなり全振りするより、段階的に適用範囲を広げるのが現実的です。具体的には、社内向けの生産性用途(要約、検索補助、開発支援)から始め、次に限定された業務フローのエージェント化へ進めるとリスクを抑えられます。

価格は、APIユーザーにとって重要なポイントですが、Gemini 3 Proの価格体系を維持しつつ性能が大きく上がった、とされています。公表情報では、入力が200kトークンまで$2.00/100万トークン(200k超は$4.00)、出力が200kまで$12.00/100万トークン(200k超は$18.00)です。コンテキストキャッシュは$0.20〜$0.40/100万トークンに加え、保管料が$4.50/100万トークン/時とされます。検索グラウンディングは月5,000プロンプトが無料枠、その後は検索クエリ課金(例:$14/1,000検索)という整理です。
ライセンス面では、オープンソースではなく商用SaaS型のプロプライエタリモデルとして提供されます。エンタープライズ利用では、Vertex AIやGemini Enterpriseなど、クラウドのセキュリティ境界・管理機能の中で扱える点が利点になります。一方で、データ取り扱い(学習への利用有無、ログ保持、リージョン、暗号化、監査)や、Preview期間中のSLA、互換性、モデル更新通知の運用などは、契約・設計の段階で必ず確認が必要です。
導入時の確認ポイント(実務チェックリスト)
- Previewの扱い:本番適用可否、SLA、仕様変更時の通知・移行期間
- データガバナンス:入力データの保持、学習利用、監査ログ、リージョン要件
- コスト管理:Thinkingレベル別の平均トークン、キャッシュ戦略、上限設定
- 運用設計:モデル更新による品質ドリフトの回帰テスト、評価データの整備
- エージェント安全性:ツール実行権限、外部アクセス制御、失敗時のロールバック
まとめ
Gemini 3.1 Proは、3段階Thinkingによって「推論の強さを業務に合わせて調整する」という運用思想を前面に出し、単一モデルでの守備範囲を広げました。ARC-AGI-2で2倍超の伸びを示すなど推論性能が大きく改善し、Terminal-BenchやMCP Atlas、BrowseCompといったエージェント系指標でも上振れしています。これは、企業のAI活用が“会話”から“実行”へ移る局面で、モデル選定と運用設計の両面に影響するアップデートです。
一方でPreviewである以上、導入は段階的に進め、Thinkingレベルの設計、コスト管理、評価と回帰テスト、権限とガードレールをセットで整備することが成功の条件になります。モデルの性能向上を「運用の単純化」と「エージェント化による業務スループット向上」に接続できるかが、Gemini 3.1 Proを活かし切れるかどうかの分岐点になるでしょう。

