Googleが、生成AIの次なるフェーズを切り拓こうとしています。同社のAI研究部門DeepMindは、最新の大規模言語モデル「Gemini 2.5 Pro」を拡張した新モデル「Gemini 2.5 Pro Computer Use」を発表しました。
このモデルは、単なるチャットAIではありません。ユーザーの指示に応じてWebサイトを自動で開き、ボタンをクリックし、フォームを入力し、情報を取得する——まさに“行動するAI”です。これまでOpenAIの「ChatGPT Agent(旧Operator)」やAnthropicの「Computer Use」などが同様の試みを行ってきましたが、ついにGoogleも本格的に参入しました。
この記事ではGoogleの新モデル「Gemini 2.5 Pro Computer Use」について詳しく紹介します。
Gemini 2.5 Pro Computer Use概要:Webを“操作できる”AIエージェント

Gemini 2.5 Computer Useは、Googleの従来モデル「Gemini 2.5 Pro」をベースに、Webブラウザを仮想的に操作する能力を追加したものです。たとえば「このサイトで新しいアカウントを作成して」「Amazonで高評価のソーラーライトを探して」と指示すると、AIが実際にブラウザを開き、クリックや入力を行いながら目的を遂行します。
Google CEOのサンダー・ピチャイ氏はX(旧Twitter)で次のように述べています。
「これはまだ初期段階だが、AIがスクロールやフォーム入力、プルダウン操作などを行えるようになったのは、汎用的なAIエージェントに向けた重要な一歩だ。」
このモデルは一般ユーザー向けには直接提供されず、Googleが提携したBrowserbaseというスタートアップの環境でデモ利用が可能です。Browserbaseは、AI専用の「ヘッドレスブラウザ(画面を持たない仮想ブラウザ)」を提供しており、GeminiのほかOpenAIやAnthropicのモデルとも比較できます。
クリック・入力・スクロールも自動で
テストでは、Gemini 2.5 Computer Useは指示通りにテイラー・スウィフトの公式サイトへアクセスし、トップで販売中の限定版アルバム情報を要約して返しました。さらに、Amazonで商品検索を行うテストでは、人間判定用CAPTCHA(バイクの画像を選択)を数秒で突破する場面も確認されています。
ただし、すべての操作が完璧というわけではなく、一部の複雑なタスクでは途中で停止するケースもあるようです。また、ChatGPT AgentやClaudeのようにローカルファイルを直接作成・編集する機能(PowerPointやスプレッドシート作成など)は現時点で非対応です。
このモデルはあくまでWebやモバイルアプリのUIを操作することに特化しており、出力はテキストまたはUI操作ログの形式で返されます。

技術面:人間のようにUIを“見て動かす”
Gemini 2.5 Computer Useは、画面キャプチャや操作履歴をもとに、次に取るべき行動(クリック・入力など)を推論します。プロセスは次のループで構成されます。
- ユーザーからタスク指示を受け取る
- 対象画面のスクリーンショットと履歴を読み込む
- 適切な操作を提案(クリック・入力・スクロールなど)
- 実行結果を確認し、次の行動を判断
これを繰り返して、AIは人間と同じように画面上の操作を完了させます。安全性が必要な操作(購入など)は、必ずユーザー確認を求める仕様です。操作には専用ツール「computer_use」を使用しており、PlaywrightやBrowserbaseの開発環境にも統合可能です。
Gemini 2.5 Computer Useの性能評価
Googleによる検証では、Gemini 2.5 Computer Useは複数の操作系ベンチマークで高いスコアを記録しました。
テスト名 | Gemini 2.5 | Claude Sonnet 4 | OpenAI Agent |
---|---|---|---|
Online-Mind2Web | 65.7% | 61.0% | 44.3% |
WebVoyager | 79.9% | 69.4% | 61.0% |
AndroidWorld | 69.7% | 62.1% | 測定不可 |
操作精度だけでなくレイテンシ(応答速度)も低く、UI自動化やテスト用途における実用性が高いとされています。

企業利用の進展:Google社内でも実運用が開始

Googleによれば、社内外のチームがすでにこのモデルを実務に活用しています。
- Google決済チーム:テストの失敗ケースの約60%を自動で再実行し、工数を削減。
- Autotab(外部企業):複雑なデータ解析タスクで他モデルより最大18%高い精度を記録。
- Poke.com:画面操作の速度が競合比で約50%高速化。
また、Google自身もこの技術を「Project Mariner」「Firebase Testing Agent」「SearchのAIモード」などに組み込んでいます。
安全設計:AIの“暴走”を防ぐ多層ガード
ソフトウェアを直接操作できるAIである以上、安全性への配慮は不可欠です。Googleは次のような多層防御を設けています。
- ステップ単位の安全審査:実行前にすべての操作内容を検査
- 開発者ルールの設定:特定操作(購入・削除など)に確認を必須化
- 禁止行為の自動防止:不正アクセスや規約違反に該当する行動をブロック
たとえばCAPTCHA画面に遭遇した場合は、自動実行を避け、ユーザー確認を求めるよう設計されています。
料金体系:Proモデルとほぼ同水準
料金は基本的にGemini 2.5 Proと同等で、トークン課金制が採用されています。
- 入力:100万トークンあたり1.25ドル(20万トークン未満)
- 出力:100万トークンあたり10〜15ドル
ただし、Computer Useモデルは有料専用で、無料利用枠はありません。Pro版で提供されている「コンテキストキャッシュ」や「Google検索連携」などのオプション機能は現時点で非対応です。
また、有料版での利用データはGoogleの学習に使われません(Pro無料版では一部が学習に活用されます)。
まとめ:AIが“操作する”未来へ

Gemini 2.5 Computer Useは、生成AIの役割を「書く」から「動かす」へと拡張しました。
従来のAPI連携やスクリプト制御では難しかった、人間の画面操作に近い自律行動を可能にしています。これは、企業システムの自動化や業務効率化において極めて大きな意味を持ちます。将来的には、AIがログイン・検索・入力・承認まで一連の業務をこなす「実行型AIエージェント」が、日常業務の中に自然に組み込まれるでしょう。