デジタルオペレーションマネージメントのリーディングプロバイダーであるPagerDuty(ページャーデューティー)は、複雑化するインシデント対応に対応するAI搭載ツール「SRE(サイト信頼性エンジニアリング)エージェント」の概要を解説している。このAIはベンダーに依存せず、メモリーを活用して時間の経過とともにパフォーマンスを向上させることで、各対応をより迅速、スマート、そしてより信頼性の高いものにする。
SREエージェントのメモリー機能は、インシデント対応の分野に革新をもたらす。システム間のデータポイントを連携させ、サイロ化を解消し、インシデントの包括的なビューを提供する。この機能は、サイロ化された知識がもたらす非効率性を浮き彫りにしたユーザーからのフィードバックに応えて開発された。SREエージェントのメモリー機能は、人間とツールの知識を統合することでこれらの非効率性に対処し、インシデント解決を加速させ、自動化された運用を長期的に改善する。
SREエージェントのメモリーは、単にデータを保存するだけでなく、動作環境を理解することも担っている。変更、依存関係、過去のインシデント、会話履歴、そして対応者がサービスを復旧するために実行した手順を記憶する。このメモリーは、サービス全体にわたるパターンと関連するインシデントを認識し、変更イベントを症状や過去の修正と関連付け、よりスマートなランブックとより充実したインシデント後レビューを生成するために使用される。その結果、インシデントの期間が短縮され、必要な対応者数が減少し、オンコール対応者の認知負荷が軽減される。
SREエージェントは、PagerDutyが15年以上培ってきた運用ノウハウと実際のインシデントデータに基づいて構築されている。複数のソースから収集された運用データを、担当者が活用できる実用的なコンテキストに変換する。SREエージェントは、ログやメトリクスを読み取るだけでなく、サービストポロジー、最近のデプロイ、インシデント履歴と相関させ、現状の問題点と次に取るべき対応策に関するインサイトを提供する。700以上のツールと統合し、オープンAPIを使ってスタック全体からデータを取得し、ノイズとシグナルを分離する。また、自動診断の実行、ログやメトリクスのクエリー、ランブックや過去のインシデントへの参照などを行い、考えられる原因を証拠とともに提示する。人間の承認があれば、推奨アクションを実行し、サービスの復旧を検証し、何が機能したかを正確に記録できる。時間の経過とともに、SREエージェントは推奨事項を改善し、再発を防ぐために新規または更新されたランブックを生成していく。
出典:PagerDuty
この製品の詳細については、PagerDuty製品ページをご覧ください。
 
                         
                     
                 
                 
                 
                 
                 
                 
                    