Googleの「Gemini 2.5 Computer Use」登場:AIがWebを操作する時代へ

AIニュース
AIニュース

Googleが、生成AIの次なるフェーズを切り拓こうとしています。同社のAI研究部門DeepMindは、最新の大規模言語モデル「Gemini 2.5 Pro」を拡張した新モデル「Gemini 2.5 Pro Computer Use」を発表しました。

このモデルは、単なるチャットAIではありません。ユーザーの指示に応じてWebサイトを自動で開き、ボタンをクリックし、フォームを入力し、情報を取得する——まさに“行動するAI”です。これまでOpenAIの「ChatGPT Agent(旧Operator)」やAnthropicの「Computer Use」などが同様の試みを行ってきましたが、ついにGoogleも本格的に参入しました。

この記事ではGoogleの新モデル「Gemini 2.5 Pro Computer Use」について詳しく紹介します。


最近「社外に出せないデータで生成AIを使いたい」という相談をいただきます。ChatGPTの利用は社内で禁止されているそうです。セキュリティやコスト面が気になる企業には、社内のローカル環境で動かせる仕組みがあることはご存知ですか?
OpenAIのオープンなAIモデル「gpt-oss」も利用いただけます。

Gemini 2.5 Pro Computer Use概要:Webを“操作できる”AIエージェント

Gemini 2.5 Computer Useは、Googleの従来モデル「Gemini 2.5 Pro」をベースに、Webブラウザを仮想的に操作する能力を追加したものです。たとえば「このサイトで新しいアカウントを作成して」「Amazonで高評価のソーラーライトを探して」と指示すると、AIが実際にブラウザを開き、クリックや入力を行いながら目的を遂行します。

Google CEOのサンダー・ピチャイ氏はX(旧Twitter)で次のように述べています。

「これはまだ初期段階だが、AIがスクロールやフォーム入力、プルダウン操作などを行えるようになったのは、汎用的なAIエージェントに向けた重要な一歩だ。」

このモデルは一般ユーザー向けには直接提供されず、Googleが提携したBrowserbaseというスタートアップの環境でデモ利用が可能です。Browserbaseは、AI専用の「ヘッドレスブラウザ(画面を持たない仮想ブラウザ)」を提供しており、GeminiのほかOpenAIやAnthropicのモデルとも比較できます。

クリック・入力・スクロールも自動で

テストでは、Gemini 2.5 Computer Useは指示通りにテイラー・スウィフトの公式サイトへアクセスし、トップで販売中の限定版アルバム情報を要約して返しました。さらに、Amazonで商品検索を行うテストでは、人間判定用CAPTCHA(バイクの画像を選択)を数秒で突破する場面も確認されています。

ただし、すべての操作が完璧というわけではなく、一部の複雑なタスクでは途中で停止するケースもあるようです。また、ChatGPT AgentやClaudeのようにローカルファイルを直接作成・編集する機能(PowerPointやスプレッドシート作成など)は現時点で非対応です。

このモデルはあくまでWebやモバイルアプリのUIを操作することに特化しており、出力はテキストまたはUI操作ログの形式で返されます。

技術面:人間のようにUIを“見て動かす”

Gemini 2.5 Computer Useは、画面キャプチャや操作履歴をもとに、次に取るべき行動(クリック・入力など)を推論します。プロセスは次のループで構成されます。

  1. ユーザーからタスク指示を受け取る
  2. 対象画面のスクリーンショットと履歴を読み込む
  3. 適切な操作を提案(クリック・入力・スクロールなど)
  4. 実行結果を確認し、次の行動を判断

これを繰り返して、AIは人間と同じように画面上の操作を完了させます。安全性が必要な操作(購入など)は、必ずユーザー確認を求める仕様です。操作には専用ツール「computer_use」を使用しており、PlaywrightやBrowserbaseの開発環境にも統合可能です。

Gemini 2.5 Computer Useの性能評価

Googleによる検証では、Gemini 2.5 Computer Useは複数の操作系ベンチマークで高いスコアを記録しました。

テスト名Gemini 2.5Claude Sonnet 4OpenAI Agent
Online-Mind2Web65.7%61.0%44.3%
WebVoyager79.9%69.4%61.0%
AndroidWorld69.7%62.1%測定不可

操作精度だけでなくレイテンシ(応答速度)も低く、UI自動化やテスト用途における実用性が高いとされています。

企業利用の進展:Google社内でも実運用が開始

Googleによれば、社内外のチームがすでにこのモデルを実務に活用しています。

  • Google決済チーム:テストの失敗ケースの約60%を自動で再実行し、工数を削減。
  • Autotab(外部企業):複雑なデータ解析タスクで他モデルより最大18%高い精度を記録。
  • Poke.com:画面操作の速度が競合比で約50%高速化。

また、Google自身もこの技術を「Project Mariner」「Firebase Testing Agent」「SearchのAIモード」などに組み込んでいます。

安全設計:AIの“暴走”を防ぐ多層ガード

ソフトウェアを直接操作できるAIである以上、安全性への配慮は不可欠です。Googleは次のような多層防御を設けています。

  • ステップ単位の安全審査:実行前にすべての操作内容を検査
  • 開発者ルールの設定:特定操作(購入・削除など)に確認を必須化
  • 禁止行為の自動防止:不正アクセスや規約違反に該当する行動をブロック

たとえばCAPTCHA画面に遭遇した場合は、自動実行を避け、ユーザー確認を求めるよう設計されています。

料金体系:Proモデルとほぼ同水準

料金は基本的にGemini 2.5 Proと同等で、トークン課金制が採用されています。

  • 入力:100万トークンあたり1.25ドル(20万トークン未満)
  • 出力:100万トークンあたり10〜15ドル

ただし、Computer Useモデルは有料専用で、無料利用枠はありません。Pro版で提供されている「コンテキストキャッシュ」や「Google検索連携」などのオプション機能は現時点で非対応です。

また、有料版での利用データはGoogleの学習に使われません(Pro無料版では一部が学習に活用されます)。

まとめ:AIが“操作する”未来へ

Gemini 2.5 Computer Useは、生成AIの役割を「書く」から「動かす」へと拡張しました。
従来のAPI連携やスクリプト制御では難しかった、人間の画面操作に近い自律行動を可能にしています。これは、企業システムの自動化や業務効率化において極めて大きな意味を持ちます。将来的には、AIがログイン・検索・入力・承認まで一連の業務をこなす「実行型AIエージェント」が、日常業務の中に自然に組み込まれるでしょう。

↑↑↑
この記事が参考になりましたら、上の「参考になった」ボタンをお願いします。

会社ではChatGPTは使えない?情報漏洩が心配?

ある日本企業に対する調査では、72%が業務でのChatGPT利用を禁止していると報告されています。社内の機密情報がChatGPTのモデルに学習されて、情報漏洩の可能性を懸念しているためです。

そのため、インターネットに接続されていないオンプレミス環境で自社独自の生成AIを導入する動きが注目されています。ランニングコストを抑えながら、医療、金融、製造業など機密データを扱う企業の課題を解決し、自社独自の生成AIを導入可能です。サービスの詳細は以下をご覧ください。

いますぐサービス概要を見る▶▶▶
この記事をシェアする
監修者:服部 一馬

フィクスドスター㈱ 代表取締役 / ITコンサルタント / AIビジネス活用アドバイザー

非エンジニアながら、最新のAI技術トレンドに精通し、企業のDX推進やIT活用戦略の策定をサポート。特に経営層や非技術職に向けた「AIのビジネス活用」に関する解説力には定評がある。
「AIはエンジニアだけのものではない。ビジネスにどう活かすかがカギだ」という理念のもと、企業のデジタル変革と競争力強化を支援するプロフェッショナルとして活動中。ビジネスとテクノロジーをつなぐ存在として、最新AI動向の普及と活用支援に力を入れている。

タイトルとURLをコピーしました