Chrome新標準WebMCPとは?AIエージェント連携を低コスト化する仕組み

AI活用ブログ
AI活用ブログ

生成AIの「エージェント」が業務に入り始めた一方で、Web操作の自動化は依然として不安定で高コストです。ボタン位置の推定や画面解析にトークンと時間を浪費し、UI変更で簡単に壊れる――この課題に対し、Chromeが早期プレビューとして提示したのがWebMCP(Web Model Context Protocol)です。WebMCPは、各Webサイトを「AIが呼び出せる構造化ツール」として公開するための新しいブラウザAPIを提案し、スクレイピング中心の時代を終わらせる可能性があります。本記事では、B2Bの意思決定者・企画担当者向けに、仕組みと企業ITへの影響、MCPとの使い分け、普及ロードマップまでを整理します。


最近「社外に出せないデータで生成AIを使いたい」という相談をいただきます。ChatGPTの利用は社内で禁止されているそうです。セキュリティやコスト面が気になる企業には、社内のローカル環境で動かせる仕組みがあることはご存知ですか?
OpenAIのオープンなAIモデル「gpt-oss」も利用いただけます。

1. WebMCP登場の背景:スクレイピング頼みのWebエージェントが抱える課題

現行のWebエージェントは、Webサイトを「人間向けUI」としてしか理解できず、実質的に“言語の通じない観光客”のように振る舞います。代表的な手法は、(1)スクリーンショットをマルチモーダルモデルに渡して要素を推定する方法、(2)DOM/HTMLを解析してクリック対象を探す方法です。どちらも、モデルにとって無関係な情報が大量に混ざるため、コストと失敗率が企業運用のボトルネックになります。

1. WebMCP登場の背景:スクレイピング頼みのWebエージェントが抱える課題
1. WebMCP登場の背景:スクレイピング頼みのWebエージェントが抱える課題

スクリーンショット方式では、画像1枚あたり数千トークン相当のコストが発生しやすく、推論レイテンシも伸びます。DOM方式でも、HTML/CSS/JSのノイズを読み込むことでコンテキストを圧迫し、ページ構造の微妙な差異や動的レンダリング(SPA、遅延読み込み)で失敗が増えます。結果として、人間なら数秒の「検索→フィルタ→結果確認」が、エージェントでは多数の推論呼び出しと試行錯誤に分解され、運用費(トークン課金、API費、監視工数)と開発費(壊れた自動化の改修)が膨らみます。

企業側の観点では、UI変更が頻繁なSaaSやEC、社内ポータルほど影響が大きく、「自動化できるはずの業務が、保守できない自動化になる」という逆転現象が起きがちです。WebMCPは、この“人間向け表現とAIが必要とする構造のギャップ”を、ブラウザ標準で埋めようとする試みです。

2. WebMCPの仕組み:navigator.modelContextと2つのAPI(Declarative/Imperative)

WebMCPは、サイトがエージェントに対して「呼び出し可能なツール(関数)」を構造化して公開するための提案仕様です。中核となるのが新しいブラウザAPIである

(概念としての入口)で、エージェントはページのUIを推測する代わりに、サイトが提示するツール定義に基づいて確実に操作できます。

WebMCPは大きく2系統のAPIで構成されます。ひとつは既存HTML資産を活かしやすいDeclarative API、もうひとつは複雑な動的操作を扱えるImperative APIです。両者を併用することで、「フォーム中心の定型処理」と「JavaScriptで実現している高度なUIロジック」の双方を、エージェントにとっての“関数呼び出し”へ落とし込めます。

Declarative API:既存フォームを“ツール化”する近道

Declarative APIは、HTMLフォームのような標準的UIを、追加のメタ情報(ツール名、説明など)でエージェントから呼べるようにする方向性です。フォーム設計が整っている企業サイトであれば、ページの作り替えやバックエンド新設をせずに、比較的軽微な変更で「入力→送信→結果取得」をツールとして公開できる余地があります。すでに入力項目が明確でバリデーションも整っている場合、導入効果が出やすいのが特徴です。

Imperative API:registerTool()で高度な操作を関数として公開

Imperative APIは、JavaScriptでツールを登録し、引数スキーマと説明を含む「呼び出し契約」を提示する考え方です。イメージとしては、OpenAIやAnthropicのツール定義に近いものを“ブラウザ内で”提供します。たとえばECならsearchProducts(query, filters)、印刷発注ならorderPrints(copies, pageSize)のように、UI上の複数ステップ操作を1回のツール呼び出しに集約できます。

重要なのは、従来なら「フィルタを開く→選ぶ→適用→ページ送り→結果を読む」といった多数の操作と推論が必要だった処理を、1回の構造化呼び出し+構造化レスポンス(JSON等)に置き換えられる点です。これにより、エージェントは画面の“解釈”ではなく、明示された“能力”を使ってタスクを進められます。

3. 企業ITへのインパクト:コスト削減・信頼性向上・開発速度の加速

WebMCPが企業ITに与えるインパクトは、単なる「新しいAPI」ではなく、エージェント運用の費用対効果を決める3要素(コスト、信頼性、開発生産性)を同時に改善し得る点にあります。特に、Web操作が絡む業務支援(営業支援、調達、カスタマーサポート、社内申請)で効果が出やすいでしょう。

3. 企業ITへのインパクト:コスト削減・信頼性向上・開発速度の加速
3. 企業ITへのインパクト:コスト削減・信頼性向上・開発速度の加速
  • コスト削減:スクリーンショット解析やDOM解釈の反復が減り、推論回数・トークン消費・待ち時間を圧縮できます。タスクが「多数の推測ステップ」から「少数の確定ステップ」へ変わるため、見積もり可能性も上がります。
  • 信頼性向上:UI変更やレイアウト崩れ、動的コンテンツによる失敗が、ツール化された範囲では大幅に減ります。「この関数があり、引数はこれ、返り値はこれ」という契約があるため、エージェントが迷いにくくなります。
  • 開発速度の加速:別途MCPサーバーや専用APIを立てずとも、既存フロントエンドのJavaScriptロジックを再利用してツール化できるため、アーキテクチャ変更を最小化できます。特に“ページを作り直さずにエージェント対応する”という選択肢は、既存資産の大きい企業ほど価値があります。

意思決定者の観点では、WebMCPは「PoCでは動くが本番で壊れる」問題を減らし、運用監視・例外対応・改修の隠れコストを抑える方向に働きます。結果として、エージェント導入のROIが“モデル性能”ではなく“接続方式”で左右される局面において、標準化の恩恵が大きくなります。

4. Human-in-the-loop前提の設計:自律型ではなく協調型ブラウジングへ

WebMCPの設計思想で特徴的なのは、完全自律のヘッドレス自動化を主目的にしていない点です。仕様は、ユーザーがブラウザ上に存在し、エージェントと協調しながら進めるHuman-in-the-loop(人間参加型)を前提にしています。企業利用では、誤操作や誤発注、権限逸脱のリスクを考えると、この前提はむしろ現実的です。

提案では、協調型の柱として「コンテキスト(ユーザーの状況理解に必要な情報)」「ケイパビリティ(代理実行できる行為)」「コーディネーション(人とエージェントの引き継ぎ制御)」が重視されます。たとえば購買担当が条件を指示し、エージェントがサイトのツールを呼んで候補を絞り込み、最終判断や例外条件は人が握る、といった分業が設計しやすくなります。

この方向性は、内部統制や監査ログ、承認フローと相性が良い一方で、「完全無人で大量処理したい」用途には別の仕組みが必要になります。WebMCPは“ブラウザでの共同作業”を強化する標準として捉えるのが適切です。

5. MCPとの違いと使い分け:バックエンド連携とブラウザ内ツールの補完関係

WebMCPは名前にMCPを含みますが、AnthropicのModel Context Protocol(MCP)を置き換えるものではありません。MCPが主にクライアント(AI)とサーバー(ツール提供者)を結ぶバックエンド連携の枠組みであるのに対し、WebMCPはブラウザ内でサイトがツールを公開し、ページ文脈のままエージェントが利用することを狙います。通信方式や前提(JSON-RPC等)も同一ではありません。

5. MCPとの違いと使い分け:バックエンド連携とブラウザ内ツールの補完関係
5. MCPとの違いと使い分け:バックエンド連携とブラウザ内ツールの補完関係

企業アーキテクトの観点では、「どこで実行し、どこに責任境界を置くか」で使い分けるのが要点です。バックエンドのMCPは、サービス間連携やバッチ的自動化、UI不要の処理に向きます。一方WebMCPは、ログイン済みセッション、画面共有の文脈、ユーザーの確認が必要な操作など、“ブラウザにいること自体”が価値になる領域に向きます。

  • MCPが向く例:在庫照会API、価格計算、社内マスタ参照、RPA置き換えのサーバー処理、複数システム横断の自動実行。
  • WebMCPが向く例:予約・申込・購買などの画面フロー、サポート担当の共同閲覧、ユーザー入力を伴うフォーム処理、UI上での候補提示と最終承認。

実務的には「バックエンドはMCPで統合しつつ、顧客向け/従業員向けWebはWebMCPでツール公開する」という二層構えが自然です。両者は競合ではなく、接点の違う補完関係として設計できます。

6. 提供状況と今後の見通し:Chrome Canaryから標準化・普及までのロードマップ

WebMCPは、Chrome 146 Canaryで早期プレビューとして提供が始まった段階で、chrome://flagsの「WebMCP for testing」から有効化して試す位置づけです。GoogleとMicrosoftのエンジニアが共同で進め、W3CのWeb Machine Learningコミュニティグループでインキュベートされてきた経緯が示す通り、単独ベンダーの実験というより“標準化を見据えた実装先行”に近い動きです。

今後の普及は、(1)仕様がコミュニティ段階から正式ドラフトへ進むこと、(2)Chromeでの実装成熟(セキュリティ、権限、UX、互換性)、(3)他ブラウザの追随、(4)Web開発者側の採用、の順で進むのが一般的です。共同開発にMicrosoftが関与している点から、Edge系での展開も期待されますが、時期は確定ではありません。

B2B企業としては、現時点で全社標準に組み込むというより、「エージェント活用がROIを左右する特定業務」を選び、Canaryでの技術検証と設計指針づくりを先行するのが現実的です。特に、フォームが整備された業務画面や、フロントエンドに既存ロジックが厚い領域は、少ない改修で効果が出る可能性があります。

まとめ

WebMCPは、スクリーンショット解析やDOMスクレイピングに依存してきたWebエージェントの不安定さ・高コスト構造を、ブラウザ標準で転換しようとする提案です。navigator.modelContextを起点に、Declarative/Imperativeの2つのアプローチで「サイトの操作を構造化ツールとして公開」できれば、推論回数の削減、UI変更耐性の向上、開発・運用の省力化が同時に狙えます。

また、完全自律ではなくHuman-in-the-loopを前提にした協調型ブラウジングは、企業の統制・責任分界と整合しやすい設計です。バックエンド連携のMCPと競合するのではなく、ブラウザ内ツールとして補完し合う構図で捉えると、全体アーキテクチャの見通しが良くなります。Chrome Canaryでの早期プレビュー段階から、影響の大きい業務領域を選んで検証を始めることが、標準化・普及局面での優位につながるでしょう。

↑↑↑
この記事が参考になりましたら、上の「参考になった」ボタンをお願いします。

会社ではChatGPTは使えない?情報漏洩が心配?

ある日本企業に対する調査では、72%が業務でのChatGPT利用を禁止していると報告されています。社内の機密情報がChatGPTのモデルに学習されて、情報漏洩の可能性を懸念しているためです。

そのため、インターネットに接続されていないオンプレミス環境で自社独自の生成AIを導入する動きが注目されています。ランニングコストを抑えながら、医療、金融、製造業など機密データを扱う企業の課題を解決し、自社独自の生成AIを導入可能です。サービスの詳細は以下をご覧ください。

いますぐサービス概要を見る▶▶▶
この記事をシェアする
監修者:服部 一馬

フィクスドスター㈱ 代表取締役 / ITコンサルタント / AIビジネス活用アドバイザー

非エンジニアながら、最新のAI技術トレンドに精通し、企業のDX推進やIT活用戦略の策定をサポート。特に経営層や非技術職に向けた「AIのビジネス活用」に関する解説力には定評がある。
「AIはエンジニアだけのものではない。ビジネスにどう活かすかがカギだ」という理念のもと、企業のデジタル変革と競争力強化を支援するプロフェッショナルとして活動中。ビジネスとテクノロジーをつなぐ存在として、最新AI動向の普及と活用支援に力を入れている。

タイトルとURLをコピーしました