2006-09-27 

サーバを導入した後に「失敗したなあ~」「こんなはずじゃなかった」なんて思うことがありますよね~?そんな失敗を未然に防ぐ、あるいは失敗に備える心構えだけでも、思いつくままに書いてみようと思います。

導入時

  • ラックに入らない
    • レールがラックに取り付けられない
    • サーバの幅がわずかに広すぎて、サーバとレールがうまく取り付けられない
    • ラック自体の幅がわずかに狭すぎて、 サーバとレールがうまく取り付けられない
    • レールの取り付け方に癖がある、取り付けに習熟が必要
  • 対策
    • サーバの幅がEIAの1U規格より若干小さめであることに注意を払う、つまり幅が19インチよりどのくらい小さ目かに注意する
    • あらかじめ設置場所、ラックの下見をしておく
    • いつも設置を行っているプロ(設置職人?)にお願いする

 

  • ネジは足りてますか?
    • ネジが足りない
    • ナットが足りない
    • ネジとナットのサイズが合わない

 

 

  • 対策説明
    • サーバに同梱されているネジって必ずしも十分ではないんですよね。何本入っているか確認しておきましょう。
    • ケージナットはサーバには同梱されていません、データセンター側で用意してくれるかな?
    • M5、M6?ネジ&ナットには種類があるようです。あらかじめ調べておきましょう。
    • 10本/一台のネジ&ナットが必要。レール一本固定するのに前後で各2、計4本のネジと4個のナットが必要です。それが左右で8本と8個。サーバをレールに挿入して最後に前止めするのに左右で一対ずつのネジ&ナットが必要です。

 

  • 電源容量が。。。
    • 電源容量が足りない
    • コンセントの数が足りない
  • 説明、対策
    • 電源容量不足は現在最も深刻な問題ではないでしょうか?
    • デー タセンターでラック一本借りるとすると、通常20Aの電源一系統が割り当てられます。最近のサーバ必要電流が大きく、Xeon(Irwindale)の DualCPUサーバで最大、2.5A~3.0A程度の電流容量を必要とします。これでは、一系統の電源で6台のサーバしかカバーできません。
    • 契約するデータセンターに電源の追加オプションがあるかどうか、何本まで追加できるか、その時の価格まで、きちんと確認しておきましょう。
    • 購入するサーバの消費電流をあらかじめ把握しておきましょう。サーバについている電源の容量ではありません。CPUの消費電力、TDPでもありません。サーバがどれくらいの電流を消費するかを、クランプメータで測ったデータが一番役に立ちます。
    • 最近発売されたサーバのウリは、従来サーバよりも高性能ながらずっと低消費電力であることでしょう。Xeon3000シリーズのシングルCPUサーバであれば、最大CPU負荷時で1サーバ辺り1.5A以内の電流消費で済みます。(近日データを収集する予定です。)


導入後

  • HDDが壊れる
    • 残念ながらHDDがある確率で障害を起こすのは宿命のようです。特にセクタ不良の場合。
      • 被害を拡大する前に、こまめにセクタ不良を発見するようにしましょう。
      • 定期的に全セクタをリードスキャンし、不良セクタを探します。
      • シスログにUnrecoverbleなセクタ不良のメッセージが出ていないか確認する。
      • S.M.A.R.Tログを確認するようにしましょう。Linuxの場合、smartctlコマンド、smartd等を使うと良いでしょう。
      • HDD メーカー保証が受けられるドライブを選びましょう。Seagate、WesternDigitalはホームページ上で5year limited warrantyを謳っています(正確にはそれぞれホームページをご覧下さい)。HGSTはメーカー保証は卸し先との契約によりまちまちで、リテールで 入手した場合、保証を受けるのはほぼ不可能でしょう。
    • ロット不良、ファーム不良、相性問題
      • 通常、メーカーの出荷前に発覚するのですが、万が一そのような障害に出会ってしまった場合には、きちんと調査、対応してくれるベンダーを選びましょう。(安売りベンダは、そのコストが見込まれていない可能性が高いと思います。)
      • 弊 社の出荷したサーバにおいても、Maxtor SATA 3Gbpsのドライブで、多くの問題が発生しました。HDDベンダーは相性問題との見解でしたので弊社の責任で交換しました。(しかしインターネット上で 検索してみると他でもMaxtor STATA 3Gbpsのドライブでは問題があったようですね。)

 

  • RAIDの過信
    • RAID5+ホットスペアで安心と思っていませんか?
      • ディスクが一個壊れて自動的にホットスペアディスクを加えRAIDのリビルドが開始されたとします。
      • リビルド中には普段アクセスしていなかったセクタにアクセスすることがあるため、隠れていた不良セクタが発見され、最悪の場合そのRAIDユニット自体が使用不能に。。。。
      • 3wareのRAIDカードでは、Auto Verify機能を使うと定期的にセクタスキャンをしてくれるようです。したがって、不良セクタの見落としが少なくなるでしょう。
      • RAID1(ミラー)の方が、RAID構成が崩れてもデータが読み出せる分、安心かもしれませんね。
    • fake RAID?
      • オンボードのRAIDコントローラーや安価なRAIDカードに多い。
      • BIOS、ドライバがRAID機能提供しているのみ。
      • LinuxのソフトウェアRAID、mdに比べて、性能のメリットが少ないため、Linuxのデベロッパーに支持されていない。Linuxのドライバが無い→使えない。
      • 詳しくは、http://linux-ata.org/faq-sata-raid.htmlを参照。
    • やっぱり3wareのカードが良い?
      • 私個人的にはそう思います。コマンドラインツールtw_cliが使い易いですし、信頼性、性能、機能ともにやっぱり良いと思います。

 

  • メモリ不良
    • ノーブランド、バルク品には気をつけましょう
      • この商売を始める前にユーザーとしてアキバショップブランドPCを購入しクラスタを組んだことがあるのですが、その時に原因不明のリブートなどでとても困っていたのですが、結局原因はメモリ不良で約4割のモジュールがmemtestを通りませんでした。
    • ECCメモリを使いましょう
      • 知らないうちにbitが反転していたらどうしますか?
      • 上記の前職でメモリ不良の時にはNonECCのメモリを使っていたのですが、無事計算が終了しても、bit反転が起こっていたために、何度やっても計算が合いませんでした。
      • ホビーユースのパソコン以外にNonECCメモリを使ってはいけないと思います。
    • 定期的にmemtestを実行しましょう
    • Linuxでメモリエラーを検出しましょう
    • シングルbitエラー頻発する場合には
      • 壊れかけている可能性があります。サーバを停止して、memtestをかけてみましょうエラーが検出されれば交換しましょう。
      • サービスを停止して、メモリをたくさん消費するプログラムで負荷をかけてみましょう、Uncorrectableなエラーが発生するようならメモリを交換しましょう。
    • 障害モジュールの特定は困難
      • 可能なら、ベンダーのエンジニアにオンサイトでの切り分けをお願いしましょう。