mabots' blog

知のレバレッジを最大化せよ (旧はてなダイアリーから移転しました。)

ライブドアBlog、8時間近くのサービス障害理由は冗長構成機器が同時に故障したから

サービス障害が発生していた、ライブドアプログですが、冗長構成機器が同時に故障し、コールドスタンバイ機がなかったため、マシンの調達とセットアップに時間がかかってしまったようです。もはやどこまでコストかけるのか、という経営判断レイヤの話なので、インフラチームとしては事態の解決に尽力されていたと思うのですが、、、。

注意すべきポイント

  • 冗長化しているからコールドスタンバイ機を用意していない
    • linuxなどで機器が構成されていればいいですが、専用H/W等だと復旧に時間が
    • 単一故障点になりがちなnfsなどに問題が潜んでいそうです。ただ、やればやるほどコストもかかるんだなぁ・・
      • SSLアクセラレータなど専用機器が飛んだ場合にmod proxy balancerなどで暫定対応できるような準備をしておかないとなぁ
  • Storage、DB系でないサーバーでも、RAIDで組んでいるから、バックアップをとっていないと、confファイルなどが微妙にバージョン管理外においてあったりして復帰でハマったりとかする
    • 同時にHDDが死亡する、もしくは、RAIDコントローラーが壊れてHDDに変なデータ書かれて死亡というケースもあるので気をつけなければ

ベンダーから機材が届く、というまでのデットタイムを極小化するために極力汎用的なOSでネットワークをつくったり、汎用的なPCパーツを組み合わせてサーバーにしてそのパーツを一定量ストックしておく、とかという抜本的な対策もできますが、これには知恵が必要であって、なかなかベンダーまかせの運用でここまでやりきるのは大変なのかも。。


http://blog.livedoor.jp/staff/archives/51084892.html

10:00 ストレージのディスク交換作業開始(平時作業)
10:30 交換作業中に冗長構成の機器の一部にリブートが発生し、フェイルオーバー処理開始
10:40 正常動作中の機器に切り替え完了し、非冗長構成状態へ。ハードウェアベンダーによる調査開始。
〜17:30 冗長構成に復帰を試みるも失敗。
18:00 原因調査中にフェイルオーバー側に障害が発生。
18:30 緊急メンテナンス開始
20:00 一時的にサービス復旧
21:10 再度機器に障害が発生し、サービス停止。調査の結果ハードウェアトラブルのため機器交換が必要と判断。
01:30 交換用機器到着により、交換作業開始
02:10 障害発生機器を交換完了
02:15 緊急メンテナンス終了、正常にサービスを再開