ヒューマンエラーによりAmazon Webサービスの停止、アップルのiCloudサービスの問題

2017年3月3日

1558

火曜日の主要なAmazon Web Servicesの停止は人的ミスによって引き起こされたと、小売業者は確認した。停止時間は、Appleを含む多くのオンラインサービスに影響を与え、デバッグ中に誤って入力された1つのコマンドにまでさかのぼる。

米国東部-1地域のS3（シンプルストレージサービス）は、チームがS3課金システムが予想よりも遅くなる原因となった問題に取り組んでいました。1人のチームメンバーが、課金プロセスでサブシステムに使用される少数のサーバーを停止するために、「確立されたプレイブック」からコマンドを実行しましたが、誤って必要以上にサーバーをダウンさせました。

「残念ながら、コマンドへの入力の1つが誤って入力され、より多くのサーバーが意図したよりも多く削除されました。

追加のサーバーは、他の2つのS3サブシステムをサポートするために使用されました.3つのサブシステムは、サービスがデータストレージと管理タスクを実行するために必要な、リージョン内のすべてのS3オブジェクトのメタデータと位置情報を管理するための "インデックスサブシステム" 第2の「配置サブシステム」は、機能させるために索引サブシステムに依存し、新しいデータの記憶域を割り当てるために使用されます。

これらのサブシステムの両方でサーバーが停止したため、容量が低下し、チームはすべてのシステムを再起動しました。この再起動期間中、S3はリクエストを処理できず、アマゾンのEC2（Elastic Compute Cloud）、EBS（Elastic Block Store）ボリューム、AWS Lambda、S3コンソールなど、この地域の他のAWSサービスにも影響を与えました。

S3のサブシステムは、システムが故障して別のものに置き換えることができるという前提で構築された「お客様の影響がほとんどまたはまったくない大容量の取り外しまたは故障をサポートするように設計されている」とAmazonから言われています。「長年」のインデックスサブシステムが完全に再起動されていないことに留意して、AWSの大幅な増加はサービスの再起動プロセスと安全性チェックの実行を「予想よりも長く」しました。

このような間違いが重大な影響を与えないように、ツールは、各サブシステムの最小限必要な容量レベルを維持するためのセーフガードを追加して、容量をさらに遅くするように修正されました。同様のチェックが適切に行われていることを確認するために、他の運用ツールも監査を受けます。

さらに、索引サブシステムで作業を再分割し、小さな部分に分割してリカバリ時間を短縮します。

AWSユーザーにサービスのステータスを表示するページであるService Health Dashboardは、S3が機能して更新できなかったため、ダウンタイム中に問題が発生したことを示すことができませんでした。Amazonがダッシュボードを更新して、複数のAWSリージョンで機能するようにし、単一のリージョンに依存することなく動作するようにします。

Amazonはイベントを顧客に与えることについて謝罪することで通知を完了としました。「Amazon S3の可用性に関する長い記録を誇りに思っていますが、私たちは、このサービスがお客様、アプリケーション、エンドユーザ、およびビジネスにとってどれほど重要かを知っています。

"我々はこのイベントから学ぶことができるすべてを尽くし、それをさらに活用して利用可能性を向上させる。

この停止により、S3に依存している多数のWebサイトや、Amazonのクラウドサーバーをサービスに使用していた多数のアプリケーションが問題を抱えていました。Appleは、iOSとMac App Store、iCloudドライブ、Notes、iCloudバックアップ、Apple TV、Apple Musicの一部のユーザーがダウンタイム中に問題に遭遇して、停止の影響を受けました。

アップルは、自社のデータセンターを作成することで、クラウドサービスをAmazonに頼ることから離れるように進んでいると考えられています。アップルのメサ施設は、アイルランドとデンマークで新しいデータセンターを開設するための「グローバルコマンドセンター」に変わりつつあります。Siri、FaceTime、およびiMessageを他のタスクの中で扱う Appleの既存のRenoデータセンターは、将来的にサイズが大きくなる可能性があります。Appleがデータセンターを375,000平方フィート以上拡張し、約5070万ドルのコストで計画していることが最近報告されています。