オープンソースで進化するAIエージェント：Agent S2の全貌に迫る

「自分の代わりにパソコンやスマホを操作してくれるAI」―そんな夢のような技術が現実になりつつあります。

この記事では最新の自律型エージェント「Agent S2」の技術背景や具体的な実行例、さらにはその驚くべき性能向上の秘密を紹介します。意外にも、このエージェントは人間の脳の仕組みにヒントを得たモジュール設計を採用しており、従来の自動化ツールとは一線を画しています。

モジュール式AIが実現する未来のPC・スマホ操作―Agent S2徹底解説
1. 従来の自動化ツールが抱える課題
2. AGENT S2の革新性
圧倒的なパフォーマンス評価
モジュール式アーキテクチャ―人間の脳に学ぶ設計思想
Agent S2の主要技術要素の具体的解説
最新の自律型エージェント「Agent S2」：まとめ

モジュール式AIが実現する未来のPC・スマホ操作―Agent S2徹底解説

従来の自動化ツールが抱える課題

急速なデジタル化と業務自動化のニーズが高まる現代社会において、従来の単一モデルに依存した自動化ツールには明確な限界がありました。複雑な操作や長時間にわたるタスクに対して、十分な柔軟性と精度を確保できないという課題です。

AGENT S2の革新性

この課題を解決するために誕生したのが、複数の専門モデルを組み合わせたモジュール式エージェント「Agent S2」です。2024年10月に初登場した前身「Agent S」の経験に基づく階層的プランニング手法をさらに発展させ、より高度な性能を実現しています。Agent S2の核となる技術は以下の組み合わせにあります。

基盤モデル（Claude 3.7などの大規模言語モデル）による全体的な判断
UI操作に特化した専門モデル（UI-Tarsなど）による正確な操作実行

この組み合わせにより、PCとスマホの両方で複雑なタスクを人間のように正確に操作できる新たなフレームワークとして注目を集めています。さらに、オープンソースで提供されるため、開発者やユーザーが自由に技術を検証・改良できる点も大きな魅力となっています。

圧倒的なパフォーマンス評価

Agent S2の優位性は、実世界に即した厳しいベンチマークテストで明確に証明されています。

PC環境：OSWORLDベンチマークでの優位性

PC操作の評価基準となるOSWorldベンチマークでは、15ステップと50ステップという二つの現実的なシナリオでタスク実行能力を検証しました。その結果、Agent S2は従来最高性能とされるOpenAIのOperatorを上回る成功率を達成しています。

【OSWorldベンチマーク結果】

15ステップタスク：Agent S2が従来モデルを上回る成功率
50ステップタスク：従来の32.6%から34.5%へと成功率が向上

とくに注目すべきは50ステップにおける成功率の向上で、複雑な長時間タスクにおける改善が顕著です。これは実際の業務環境で求められる複雑な操作シーケンスを正確に処理できることを意味します。

スマートフォン環境：ANDROIDWORLDベンチマーク

スマートフォン操作の評価では、AndroidWorldベンチマークにおいて、従来のUI-Tarsが46.8%の成功率だったのに対し、Agent S2は50%という高いパフォーマンスを実現しました。この数値向上は、日常的なスマートフォン操作の多くを自動化できる可能性を示しています。

実際のタスク例

Agent S2が高精度で実行できる具体的なタスク例はこちらです。

GIMPを用いた画像編集作業
LibreOffice Writerへの画像貼り付けと文書編集
VLCでの動画再生設定調整

これらの多岐にわたるタスクを人間と同じ感覚で実行できる点が、Agent S2の大きな強みです。

モジュール式アーキテクチャ―人間の脳に学ぶ設計思想

Agent S2の最大の革新性は、人間の脳の構造から着想を得た「モジュール式アーキテクチャ」にあります。

人間の脳をモデルにした設計

人間の脳では、各領域が専門的な役割を担い、互いに協調しながら全体として最適な動作を実現しています。

左半球：論理的・分析的思考を担当
右半球：創造性や空間認識を担当
運動野：身体の動きを制御
視覚野：視覚情報を処理

これらの専門領域が最適なタイミングで連携することで、複雑なタスクを効率的に遂行できるのです。

AGENT S2の分業システム

Agent S2はこの人間の脳の仕組みを応用し、以下のような分業システムを構築しています。

戦略的思考モジュール：高レベルの計画立案と意思決定を担当
操作実行モジュール：低レベルの具体的なUI操作を担当

例えば、「画像編集ソフトで写真を加工する」というタスクでは、以下のような処理を行います。

戦略モジュールが「GIMPを起動→画像を開く→フィルターを適用→保存する」という全体計画を立案
操作モジュールが「アイコンをクリック」「メニューから選択」「スライダーを調整」といった具体的操作を実行
エラーが発生した場合は、迅速に対処できるプロアクティブな計画更新機構を備える

このような分業体制により、操作精度が向上し、長時間にわたるタスク実行でも柔軟かつ安定したパフォーマンスを維持できるのです。

モジュール式アーキテクチャ―人間脳に学ぶ設計思想

Agent S2の革新性の根幹は、人間の脳のように各領域が専門的な役割を持ち、協調しながら全体として最適な動作を実現するというモジュール式アーキテクチャにあります。人間の脳は、左半球が分析的思考、右半球が創造性、さらには運動や感覚の専用領域を持ち、それぞれが最適なタイミングで連携しています。

Agent S2もこれに倣い、高レベルの戦略プランニングと低レベルの具体的なUI操作を、それぞれ得意とするモデルに分担させています。

たとえば、GIMPの起動やLibreOffice Writerでの文書作成といった具体的な操作は、専門モジュールが担当し、エラーが発生した場合にも迅速に対処できるよう、プロアクティブな計画更新機構を備えています。こうした分業体制により、全体の操作精度が向上し、長期にわたるタスク実行でも柔軟かつ安定したパフォーマンスを維持することが可能となっています。

Agent S2の主要技術要素の具体的解説

Agent S2は、4つの主要技術要素によりその高度な操作自動化を実現しています。

1.階層的プランニング

まず、「階層的プランニング」では、タスク全体を高レベル（戦略的判断）と低レベル（具体的な操作）に分割し、それぞれに最適なモデルを適用しています。これにより、従来は一つのモデルに依存していたために発生していた操作のミスや手戻りを大幅に削減しています。

2.視覚グラウンディング

次に、「視覚グラウンディング」技術では、従来のアクセシビリティツリーに頼るのではなく、実際のスクリーンショットからUI要素を直接認識する手法を採用しています。これにより、ボタンやテキスト、画像といった細かな画面情報を高精度で特定し、正確な操作が可能となります。

3.エキスパートモジュール

また、「エキスパートモジュール」では、テキスト選択やドラッグ操作など、細かな低レベルタスクを専門モジュールが担い、基盤となる大規模モデルは高レベルな意思決定に専念しています。

4.エージェントメモリ機構

最後に、「エージェントメモリ機構」は、過去のタスク実行経験を蓄積し、次回以降の操作にフィードバックすることで、使えば使うほど精度が向上する自己学習機能を実現しています。これらの技術要素が連携することで、Agent S2はあらゆる環境で一貫した高性能な自動化を可能にしているのです。

実際のユースケース

具体的なユースケースとして、PCではGoogle Driveから画像をダウンロードし、GIMPで画像の圧縮とサイズ変更を自動実行するタスクや、LibreOffice Writerで画像を貼り付けた後、DOCX形式にエクスポートする一連の操作が挙げられます。

これらの操作は、ユーザーが普段手作業で行っている細かいボタン操作やキーボードショートカット、さらにはアプリ間の切り替えまで網羅しており、業務効率の大幅な向上に寄与することは間違いありません。スマートフォンにおいても、連絡先の入力やファイルの移動、さらには動画再生中の字幕オフ操作など、日常生活に密着したタスクを高精度で実行できる点は注目に値します。

最新の自律型エージェント「Agent S2」：まとめ

将来的には、Agent S2のようなモジュール式エージェントが、あらゆるデジタルデバイスに普及し、私たちの業務や生活を根本から変革する可能性を秘めています。今後も進化し続ける技術動向に目を向けるとともに、エージェントの柔軟な拡張性と自己学習機能が、ますます多くの現場でその価値を発揮する日が近いと言えるでしょう。

参考）https://www.simular.ai/articles/agent-s2