AIエージェントで引き起こす見えない Chaos 失敗 ― 企業インフラリスクの真相

近年、クラウドサービスの拡張とAI技術の進化に伴い、企業インフラにおける自動化が加速しています。しかし、AIエージェントが実際に動作している現場では、見えない「Chaos」が潜んでおり、数多くのインシデントが未分類のまま蓄積されています。実際、Gartnerの調査では 2026 年までに全企業の 79% が AI エージェントを本番環境で運用し、さらに 96% が拡張計画を持っていると報告されています。そこで本稿では、AI エージェントが引き起こす見えない Chaos とそれに対処するための実務的手法を解説します。

AIエージェントとChaos Engineeringのギャップ

従来の Chaos Engineering は、エンジニアが手動で実験を設計し、SLO バーンレートやダッシュボードを確認した上で実行します。その判断は「人間の直感」に基づくもので、実験のタイミングと範囲が人間の目で調整されます。対照的に、AI エージェントは「観測した異常を即座に処理」するように設計されており、SLO バーンレートやダッシュボードを参照せずにアクションを実行します。結果として、エージェントが行う再起動やトラフィックリダイレクトなどの Chaos イベントは、予測できない影響を生むことがあるのです。

典型的な失敗シナリオ

マイクロサービスのレイテンシ上昇を検知したエージェントが、サービスクラスタを再起動
同時にピーク時のトラフィックを処理中の他サービスや共有接続プールの 87% 使用率、データベースのインデックス再構築が進行中
再起動により「thundering herd」現象が発生し、システム全体の障害が拡大

このように、AI エージェントは自らが「Chaos インジェクター」として機能することを前提に設計されていないため、インフラ全体のバランスを考慮した判断が欠けてしまいます。

AIエージェントとChaos Engineeringのギャップ
典型的な失敗シナリオ

見えないインフラリスクの実態
吸収容量（Resilience Budget）の導入とAIアクションの統合
LLMを使ったハイパー化と限界
ガバナンス実装の実務ステップ
まとめ：安全に運用するためのポイント

見えないインフラリスクの実態

AI 関連インシデントは 2025 年に 21% 増加しましたが、実際にはエージェントのアクションが原因であるケースが大多数です。多くの組織ではインシデント分類に「AI エージェント起因」というカテゴリが存在せず、再起動や接続プールの飽和といった表面的な症状で閉じてしまいます。このため、インフラに潜むリスクは「見えないまま」蓄積され、次の大規模障害へとつながります。

また、従来の Chaos Engineering は「静的閾値」に依存しているため、インシデントが発生した時点でのリソース余剰量をリアルタイムで把握できません。結果として、エージェントが処理できる「吸収容量」が明確に定義されていない状態でアクションが実行されると、予期せぬ cascading failure が発生します。

吸収容量（Resilience Budget）の導入とAIアクションの統合

吸収容量を「継続的に再計算される消費可能なリソース」と捉えることで、Chaos Engineering と AI エージェントを同じフレームワークに統合します。Resilience Budget は以下の4つのライブシグナルを基に算出されます。

SLO バーンレート：月間エラー予算消費率を直接反映
P99 レイテンシトレンド：直近 40 分間の傾向を重視
依存関係の飽和状態：接続プールやデータベースの利用率
アプリケーション挙動信号：セッション完了率や API 呼び出しパターンの変化

このバジェットは「消費可能なリソース」として扱われ、Chaos 実験やエージェントアクションが行われるたびに消費されます。複数チームが同時に実験を行う環境でも、バジェットが共有されることで予期せぬ blast radius の重複を防ぎます。

LLMを使ったハイパー化と限界

最近では LLM を活用し、依存関係グラフやインシデントポストモーテムから Chaos 仮説を自動生成する試みが進んでいます。LLM は「よくある失敗パターン」を高速に抽出できますが、以下の限界があります。

依存関係グラフの古さ：最新のサービス追加やライブラリ変更を反映していない
モデルレベルのガードレールの不十分さ：Fine-tuning 攻撃に耐えないケースが多い
実行意思決定の欠如：オンコール体制や顧客 SLA など、モニタリング外の情報を考慮できない

したがって、LLM は「仮説生成ツール」としては有用ですが、実際のアクションを決定する段階では人間の判断が不可欠です。

ガバナンス実装の実務ステップ

AI エージェントを安全に運用するための 5 段階ガイドラインを提示します。

ステップ1：既存エージェントの棚卸

全てのインフラに触れるエージェントをリストアップし、アクション内容とトリガー条件を明文化します。

ステップ2：Resilience Budget との統合

各エージェントに対し、SLO バーンレートやレイテンシトレンドを参照する「バジェット門」を設置します。バジェットが閾値を下回った場合、エージェントは待機またはエスカレーションを行います。

ステップ3：アクションを実験として記録

エージェントがサービスを再起動した場合、その影響範囲を Chaos データとしてバジェットにフィードバックします。これにより、次回の判断に活用できます。

ステップ4：人間に委譲する曖昧ケース

バジェットスコアが不明瞭な場合、最近のデプロイやオンコール体制の変化などを考慮し、実行決定を人間に委ねます。

ステップ5：継続的な検証と更新

依存関係グラフや SLO 目標の変更があれば、バジェット算出ロジックを再構築し、エージェントの行動ルールを更新します。

このプロセスを継続的に実行することで、AI エージェントは「Chaos インジェクター」としてではなく、インフラの「耐久力」を補完するツールとして活用できます。

まとめ：安全に運用するためのポイント

AI エージェントが引き起こす見えない Chaos は、現在のインフラ運用における最大のリスクの一つです。安全に運用するためには、以下のポイントを押さえることが重要です。

AI エージェントは「Chaos インジェクター」として扱い、Resilience Budget に組み込む。
エージェントのアクションは常に人間が監視できる状態にし、必要に応じてオーバーライドできる仕組みを設ける。
LLM を仮説生成に利用する際は、最新の依存関係データと組み合わせ、実行意思決定は人間に委譲する。
継続的にバジェットとガバナンスルールをレビューし、インフラの変化に即応できる体制を構築する。

こうした取り組みを踏まえることで、AI エージェントを活用しつつ、インフラの堅牢性を維持し、予期せぬ障害を未然に防ぐことが可能になります。今後の DX 推進において、AI と Chaos Engineering を統合したガバナンスは必須の要素となるでしょう。