サーバー障害の詳細について
2011-04-23 (Sat) 16:11
この度は、お客様に多大なご迷惑をお掛けしまして大変申し訳ございませんでした。
下記日時にてエコページホームページサービスにアクセスできない状態が発生しました。
尚、現在は負荷を考えアクセス解析を除いた形で公開しております。
□日時:
2011年4月22日 午前1時 から 午後15時40分まで
□症状:
アクセスが出来ない状態
□原因:
詳細は現在も調査中ですが、RAIDモジュール(サーバーで利用する基盤)に問題があり外付けのHDDを認識できなかった可能性が高いと思われます。
今後もログを解析し詳細を割り出していきます。
□対応:
(1)サーバすべての機能を細部まで確認。
(2)RAIDモジュールのリセットを実施。→正常に稼働。
(3)RAIDモジュールの前倒しにて東京より航空便で取り寄せ(交換は日程を決め実施予定)
□□□障害の対応状況について□□□
4月22日(金)午前1時00分
弊社で毎分ごとに行っていますサーバチェックにより、サーバの障害の兆候がみられた為、
即サーバ会社様に連絡を取り、原因の調査を行ってもらう手配をお願いしました。
4月22日(金)午前4時30分
サーバ会社様の調査及び弊社とのやり取りでハード自体に故障が発生している可能性があるかも知れないという
予測が濃厚になってきましたが、引き続き調査を続行してもらいました。
4月22日 午前6時00分
ハード面と仮定し、サーバ会社様よりメーカー技術者様に連絡を取っていただき調査を依頼。
4月22日午前9時00分
メーカー技術者様が、現地で調査開始。
併せて最悪の場合を想定して、弊社にて新サーバ構築を同時進行を開始しました。
4月22日午前11時00分
現地で細かいハードの切り分け調査を継続。
かなり細部まで調べている為、原因追究に時間がかかってしまいました。
4月22日午後15時00分
RAIDモジュールの可能性が濃厚になり、前倒しで早急にRAIDモジュールの部品を取り寄せ。
(4月22日、東京より現地に18時着)
その後、調査の為RAIDモジュールのリセットを実施。その後、すべてが正常に稼働。
様々なテストを行い、現状、部品を交換せず共、公開しても大丈夫と判断。
4月22日午後15時40分
アクセス解析の負荷を考え、アクセス解析を除いた形で暫定的に公開。
現在は、サーバも問題なく稼働しております。
今後共、注意深く確認して参ります。
なお、取り寄せました部品、RAIDモジュールはログを解析しながら近日中に判断し、
定期メンテナンスと同時に入れ替え予定でございます。
この度は、長時間にわたりお客様に多大なご迷惑をお掛けしました事を、深くお詫び申し上げます。
原因が正確に判明次第、改善策を考案し、
再度、ご報告させて頂き実行させて頂きます。
その他に問題点がございましたら、ご連絡頂けますと幸いでございます。
この度は、本当に申し訳ございませんでした。
今後、二度と同様のことが起こらないよう、安定した設備設計や運用を行うよう努力して参りますので、
今後とも何卒宜しくお願い申し上げます。
下記日時にてエコページホームページサービスにアクセスできない状態が発生しました。
尚、現在は負荷を考えアクセス解析を除いた形で公開しております。
□日時:
2011年4月22日 午前1時 から 午後15時40分まで
□症状:
アクセスが出来ない状態
□原因:
詳細は現在も調査中ですが、RAIDモジュール(サーバーで利用する基盤)に問題があり外付けのHDDを認識できなかった可能性が高いと思われます。
今後もログを解析し詳細を割り出していきます。
□対応:
(1)サーバすべての機能を細部まで確認。
(2)RAIDモジュールのリセットを実施。→正常に稼働。
(3)RAIDモジュールの前倒しにて東京より航空便で取り寄せ(交換は日程を決め実施予定)
□□□障害の対応状況について□□□
4月22日(金)午前1時00分
弊社で毎分ごとに行っていますサーバチェックにより、サーバの障害の兆候がみられた為、
即サーバ会社様に連絡を取り、原因の調査を行ってもらう手配をお願いしました。
4月22日(金)午前4時30分
サーバ会社様の調査及び弊社とのやり取りでハード自体に故障が発生している可能性があるかも知れないという
予測が濃厚になってきましたが、引き続き調査を続行してもらいました。
4月22日 午前6時00分
ハード面と仮定し、サーバ会社様よりメーカー技術者様に連絡を取っていただき調査を依頼。
4月22日午前9時00分
メーカー技術者様が、現地で調査開始。
併せて最悪の場合を想定して、弊社にて新サーバ構築を同時進行を開始しました。
4月22日午前11時00分
現地で細かいハードの切り分け調査を継続。
かなり細部まで調べている為、原因追究に時間がかかってしまいました。
4月22日午後15時00分
RAIDモジュールの可能性が濃厚になり、前倒しで早急にRAIDモジュールの部品を取り寄せ。
(4月22日、東京より現地に18時着)
その後、調査の為RAIDモジュールのリセットを実施。その後、すべてが正常に稼働。
様々なテストを行い、現状、部品を交換せず共、公開しても大丈夫と判断。
4月22日午後15時40分
アクセス解析の負荷を考え、アクセス解析を除いた形で暫定的に公開。
現在は、サーバも問題なく稼働しております。
今後共、注意深く確認して参ります。
なお、取り寄せました部品、RAIDモジュールはログを解析しながら近日中に判断し、
定期メンテナンスと同時に入れ替え予定でございます。
この度は、長時間にわたりお客様に多大なご迷惑をお掛けしました事を、深くお詫び申し上げます。
原因が正確に判明次第、改善策を考案し、
再度、ご報告させて頂き実行させて頂きます。
その他に問題点がございましたら、ご連絡頂けますと幸いでございます。
この度は、本当に申し訳ございませんでした。
今後、二度と同様のことが起こらないよう、安定した設備設計や運用を行うよう努力して参りますので、
今後とも何卒宜しくお願い申し上げます。