LaunchDarkly(ローンチダークリー)がAWSの障害による大規模なサービス中断に対処し、システム改善を実施

LaunchDarkly(ローンチダークリー)がAWSの障害による大規模なサービス中断に対処し、システム改善を実施

機能管理およびリリースプラットフォームの大手プロバイダーであるLaunchDarkly(ローンチダークリー)は、業務のさまざまな側面に影響を与える重大なサービス障害を経験した。2025年10月20日に発生したこの障害は、フィーチャーフラグ管理、フィーチャーフラグ配信、ガードリリース、可観測性、実験、分析製品、その他のデータ機能に影響を与えた。このインシデントはAWS us-east-1リージョンにおける大規模な障害によって引き起こされ、さらに内部的な連鎖障害によって復旧期間が長期化した。

障害は2段階に分かれて発生した。第1段階は10月19日夜遅く、AWS us-east-1で大規模な障害が発生したことから始まった。この障害は、EC2、Lambda、DynamoDB、Route 53のコントロールプレーンなど、複数のAWSサービスに悪影響を及ぼし、パフォーマンスが低下し、利用できなくなった。LaunchDarklyはこれらのサービスに依存しているため、多くの機能に影響が出ました。米国の商用環境におけるウェブアプリケーションとAPIは不安定になり、徐々にパフォーマンスが低下し、利用できなくなった。フラグ配信の更新が遅延したり、利用できなくなったり、イベントの取り込みが徐々に低下したりしたため、米国と欧州の両方の環境でデータ損失が発生した。

障害の第2フェーズは、AWSの復旧直後に発生した。ウェブアプリケーションの負荷軽減を目的とした内部変更により、フラグ配信ネットワークで予期せぬ障害が発生した。この障害によりSDKからの過剰な再試行が発生し、ストリーミングサービスとそのロードバランサーが過負荷状態となり、応答不能となった。EC2のプロビジョニングに関する問題が継続していたため、インフラストラクチャーのスケールアウトができず、長時間の停止に至った。全リージョンのServer-side SDKsで接続エラーが発生し、その影響は世界全体で約99%に達しました。EUリージョンは速やかに復旧し、APACリージョンも午後半ばに復旧したが、米国ベースのストリーミングは深夜まで利用できなかった。

LaunchDarklyは今回のインシデントを受けて、既にシステムを大幅に改善しており、現在も改善を進めている。同社は、フラグ配信ネットワークをフィーチャー管理アプリから分離することで、フラグ配信の耐障害性向上に取り組んでいる。また、ストリーミングが利用できなくなった場合にストリーミングモードからポーリングモードへの自動フェイルオーバーをサポートするために、SDKの動作も改善している。さらに、LaunchDarklyは、全ての災害復旧オーケストレーションシステムをus-east-1から移転することで、マルチリージョンでの可用性と災害復旧を強化している。さらに、インシデント発生時のコミュニケーションを改善し、ユーザーが影響を受けないように、あるいは迅速に復旧できるよう支援している。

出典:LaunchDarkly

この製品の詳細については、LaunchDarkly製品ページをご覧ください。

You've successfully subscribed to DXable News
Great! Next, complete checkout to get full access to all premium content.
Welcome back! You've successfully signed in.
Unable to sign you in. Please try again.
Success! Your account is fully activated, you now have access to all content.
Error! Stripe checkout failed.
Success! Your billing info is updated.
Billing info update failed.
Dark Light