大手ソフトウェアデリバリープラットフォームであるHarness(ハーネス)は、Chaos EngineeringモジュールをResilience Testingへと進化させ、信頼性テストの最新プラクティスを反映した。この開発は、SRE、プラットフォームエンジニア、パフォーマンススペシャリスト、DevOpsリーダーなど、多くのチームが既に同様のワークフローでレジリエンスを検証しているという認識に基づいている。
Resilience Testingは、依存関係に障害が発生した場合のシステムの動作、持続的な負荷下でのサービスのパフォーマンス、そして実際の障害発生時にインフラストラクチャーとアプリケーションがどのように回復するかを理解するための取り組みを組み合わせた継続的なアプローチだ。このアプローチはオープンソースと実際のシステムに基づいて構築されているため、Resilience Testingを実世界のシステムに適用できる。
HarnessのChaos Engineeringへの取り組みは、Kubernetesを運用するチームが障害発生時のシステム挙動を理解できるように設計されたオープンソースプロジェクト、LitmusChaosの創設から始まった。このプロジェクトは、CNCFで最も広く採用されているChaos Engineeringプロジェクトの1つに成長し、実際の本番環境をテストする組織で利用されている。Harnessが2022年にChaos Nativeを買収した際、Chaos Engineeringは独立した活動ではなく、ソフトウェアデリバリーライフサイクルに統合されるべきであることは明らかだった。
過去4年間で、Chaos Engineeringを活用するチームは、個別の実験から、より広範なレジリエンスワークフローへとプラクティスを拡大してきた。焦点は、障害の注入から、何をテストすべきか、いつテストすべきか、そしてどのように継続的に学習すべきかを理解することへと移行した。これにより、サービスと依存関係の検出、対象を絞ったリスクテスト、モニタリング主導の検証、自動化されたゲームデイ、AI支援によるレコメンデーションといった、より高度な機能が開発された。
Harnessは現在、Chaos Engineering基盤上に構築された新しい負荷テストおよび災害復旧テスト機能を備えたResilience Testingをリリースしている。Resilience Testingは、障害処理と復旧を検証するChaos Engineeringを統合している。これらの機能は、自動化とAI主導のインサイトによって統合され、チームがリスクの優先順位付け、カバレッジの向上、そしてシステムの進化に合わせてレジリエンスを継続的に検証するのに役立つ。
この進化は、Harnessが主催するChaos Carnivalをはじめとする、レジリエンスエンジニアリングの幅広いコミュニティーとの長年にわたる協業の成果だ。Chaos Carnivalでは、数千人のエンジニアが集まり、実稼働システムから得た実践的な教訓を共有している。システムがより動的になり、AI主導型になるにつれて、Resilience Testingは定期的なチェックから、継続的かつインテリジェントな検証へと進化する必要がある。Resilience Testingは、こうした現実に対応できるよう設計されており、Harnessが長年にわたり実システムの構築、運用、拡張を通じて培ってきた知見を反映している。
出典:Harness
この製品の詳細については、Harness製品ページをご覧ください。