セキュリティーソリューションの大手プロバイダーであるWallarm(ワラーム)は、今週発生したAWSの障害から得た重要な教訓を検証した。
2025年10月20日に発生したAWSの障害は、インフラエンジニアやアーキテクトの間で大きな議論を巻き起こした。Zoom、Microsoft Teams、Slack、Atlassianといった人気サービスに影響を与えたこの障害は、AWSコントロールプレーンにおけるDNS障害に起因するものだった。このインシデントは、たとえリージョンが独立したデータセンターのクラスターとして宣伝されていても、グローバルな連鎖的な問題を引き起こす可能性のある、隠れた依存関係を浮き彫りにした。
問題の根本原因は、AWSのUS-EAST-1でホストされている単一リージョンのコントロールプレーンにあることが判明した。このコントロールプレーンはさまざまなグローバルサービスをサポートしているため、ヨーロッパやアジアで実行されるワークロードは、US-EAST-1を経由またはUS-EAST-1へルーティングするAPI呼び出しに依存していた。このリージョンのDNSおよびヘルスチェックサブシステムに障害が発生した際、これらのコントロールプレーン呼び出しは世界中で停止し、EC2の起動、設定更新、認証の速度低下につながった。
このインシデントは、インフラアーキテクトにとって貴重な教訓となった。真のマルチリージョン、アクティブ・アクティブ運用を実現する設計、単一リージョンのコントロールプレーンの回避、そしてコントロールプレーンとデータプレーンの分離の重要性が浮き彫りになった。さらに、DNSとキャッシュレイヤーの分散、サーキットブレーカーとバルクヘッド分離の実装、障害シナリオの継続的なテスト、マルチクラウドまたはハイブリッド環境におけるレジリエンスの計画、そしてキャパシティーとフェイルオーバーロジックの分離の必要性も浮き彫りになった。
WallarmのSecurity Edgeは、これらの課題の多くに対処するように設計されている。アクティブ・アクティブのマルチクラウドアーキテクチャーで動作し、AWS、Azure、その他のプロバイダー全体で適用ノードを実行する。これにより、AWSに影響を与えていた単一リージョンまたは単一プロバイダーのリスクが排除される。さらに、Security Edgeは、顧客環境に組み込まれたコンポーネントではなく、マネージド型のクラウドネイティブセキュリティーレイヤーとして動作する。つまり、顧客のクラウドまたはプロバイダーに障害が発生した場合でも、Wallarmの保護レイヤーは動作を継続する。このアーキテクチャーは、特定のクラウドプロバイダーやCDNに依存しない自動グローバルフェイルオーバーと高可用性も提供する。これにより、基盤となるインフラストラクチャーに障害が発生した場合でも、ユーザーはセキュリティーの継続性を確保できる。
AWSの障害は、いかなるクラウドプロバイダーも障害から逃れられないことを如実に示している。しかし、リスクを分散し、依存関係を分離し、段階的なデグラデーションを設計することで、組織はより回復力と耐障害性に優れたシステムを構築できる。WallarmのSecurity Edgeは、これらの教訓を積極的に適用し、攻撃とインフラ障害の両方に対する回復力を確保する好例だ。
出典:Wallarm
この製品の詳細については、Wallarm製品ページをご覧ください。