機能管理およびリリースプラットフォームの大手プロバイダーであるLaunchDarkly(ローンチダークリー)は、業務のさまざまな側面に影響を与える重大なサービス障害を経験した。2025年10月20日に発生したこの障害は、フィーチャーフラグ管理、フィーチャーフラグ配信、ガードリリース、可観測性、実験、分析製品、その他のデータ機能に影響を与えた。このインシデントはAWS us-east-1リージョンにおける大規模な障害によって引き起こされ、さらに内部的な連鎖障害によって復旧期間が長期化した。
障害は2段階に分かれて発生した。第1段階は10月19日夜遅く、AWS us-east-1で大規模な障害が発生したことから始まった。この障害は、EC2、Lambda、DynamoDB、Route 53のコントロールプレーンなど、複数のAWSサービスに悪影響を及ぼし、パフォーマンスが低下し、利用できなくなった。LaunchDarklyはこれらのサービスに依存しているため、多くの機能に影響が出ました。米国の商用環境におけるウェブアプリケーションとAPIは不安定になり、徐々にパフォーマンスが低下し、利用できなくなった。フラグ配信の更新が遅延したり、利用できなくなったり、イベントの取り込みが徐々に低下したりしたため、米国と欧州の両方の環境でデータ損失が発生した。
障害の第2フェーズは、AWSの復旧直後に発生した。ウェブアプリケーションの負荷軽減を目的とした内部変更により、フラグ配信ネットワークで予期せぬ障害が発生した。この障害によりSDKからの過剰な再試行が発生し、ストリーミングサービスとそのロードバランサーが過負荷状態となり、応答不能となった。EC2のプロビジョニングに関する問題が継続していたため、インフラストラクチャーのスケールアウトができず、長時間の停止に至った。全リージョンのServer-side SDKsで接続エラーが発生し、その影響は世界全体で約99%に達しました。EUリージョンは速やかに復旧し、APACリージョンも午後半ばに復旧したが、米国ベースのストリーミングは深夜まで利用できなかった。
LaunchDarklyは今回のインシデントを受けて、既にシステムを大幅に改善しており、現在も改善を進めている。同社は、フラグ配信ネットワークをフィーチャー管理アプリから分離することで、フラグ配信の耐障害性向上に取り組んでいる。また、ストリーミングが利用できなくなった場合にストリーミングモードからポーリングモードへの自動フェイルオーバーをサポートするために、SDKの動作も改善している。さらに、LaunchDarklyは、全ての災害復旧オーケストレーションシステムをus-east-1から移転することで、マルチリージョンでの可用性と災害復旧を強化している。さらに、インシデント発生時のコミュニケーションを改善し、ユーザーが影響を受けないように、あるいは迅速に復旧できるよう支援している。
出典:LaunchDarkly
この製品の詳細については、LaunchDarkly製品ページをご覧ください。