| ■ 【ぷろじぇくと ぞうさん】 〜E-Bananaサーバ 構築日記〜
|
第7日目:花子悶える!〜「ささやき作戦」(その2)〜
|
どうも、('A`)です。
今週は日本各地で冷え込みが厳しいですが、皆さん風邪引かないように気をつけて下さいね。
私のところは今朝マイナス16℃まで下がって、何もかもカチンコチンでした・・・
さてしばらく外伝が続きましたが、今回は「ぞうさん」の話に戻ります。
4日目にお話した「ささやき作戦」の続きです。
(^_^;):「さー!じゃあRAID再構築のテスト開始だー!」
('A`):「じゃあHDDの引抜きを始めます。」
んで、引抜き開始前のRAIDの状態です。

本来ならRAID 6の本体部分は図中のUnit0、ホットスペア部分はUnit1になります。
しかし4日目にお話した様に、実はUnit1のHDDは何故かホットスペアの属性ではなく、
通常のRAID 6として認識されていたのです。
それに気がつかないまま、Apache(httpd)を動かしたままで3本のHDDを#1->#2->#3の
順番で引抜きました。。。
んで、3本目のHDDを引き抜いた時のRAIDの状態です。

この時にApache自体はダウンしなかったのですが、プロセスが待ち状態になりました。
またサーバにログインしようとしても、パスワード入力直後に止まってしまいました。
('A`):「(^_^;)さん、サーバが反応しません。」
(^_^;):「うーん、おかしいなあ。。。しょうがない。HDDを差し戻そう。」
#3->#2->#1と引抜いたのと逆の順番に、HDDを差し戻しました。
まず #3を差し戻した時には再構築(リビルド)は発生しませんでした。
次に #2を差し戻した時に再構築(リビルド)がHDD #2に対して発生しました。
その時の状態図が以下の図です。

ここで #2の再構築(リビルド)の処理実行中に #1を差し戻してみました。
すると、本来ならRAID 6本体のユニット(Unit0)に戻るはずなのに、別のユニット(Unit1)として
別枠として認識されました。と同時に(当時はこれがホットスワップと思っていた)Unit1が
Unit2として認識されていました。
(#2のHDDはリビルドを続行していました。)

('A`):「(^_^;)さん、#1のHDDが元に戻りません。。。」
(^_^;):「えー!どうやったら直せる?」
('A`):「RAID 6の本体(Unit0)の定義上では#1のHDDが無いという認識なので、#1のHDDを
1度抜いてから差し戻せば認識されると思うのですが。。。」
(^_^;):「よしっ!#2のHDDのリビルドが終ったら、早速実行しよう。」
#2のHDDのリビルドが終った時点のRAIDの状況をtw_cliのコマンド(info c0)で
確認した結果が以下の内容です。Unit0で#1のHDD(Port 1に割り当てられている)が
NOT PRESENT(無い状態)で認識されています。
ここで#1のHDDの抜き差しを行なえば復活できるはず・・・
PIEのメンバー(通常はサーバ監視等を行なう要員)に連絡を取ってみよう。
Unit 0 15 drives RAID 6 5.91TB DEGRADED
Port 14 ST3500630AS 465.76GB OK
Port 13 ST3500630AS 465.76GB OK
Port 12 ST3500630AS 465.76GB OK
Port 11 ST3500630AS 465.76GB OK
Port 10 ST3500630AS 465.76GB OK
Port 9 ST3500630AS 465.76GB OK
Port 8 ST3500630AS 465.76GB OK
Port 15 ST3500630AS 465.76GB OK
Port 6 ST3500630AS 465.76GB OK
Port 5 ST3500630AS 465.76GB OK
Port 4 ST3500630AS 465.76GB OK
Port 3 ST3500630AS 465.76GB OK
Port 2 ST3500630AS 465.76GB OK
-- -- -- NOT PRESENT
Port 0 ST3500630AS 465.76GB OK
Unit 1 15 drives RAID 6 5.91TB INOPERABLE
-- -- -- NOT PRESENT
-- -- -- NOT PRESENT
-- -- -- NOT PRESENT
-- -- -- NOT PRESENT
-- -- -- NOT PRESENT
-- -- -- NOT PRESENT
-- -- -- NOT PRESENT
-- -- -- NOT PRESENT
-- -- -- NOT PRESENT
-- -- -- NOT PRESENT
-- -- -- NOT PRESENT
-- -- -- NOT PRESENT
-- -- -- NOT PRESENT
Port 1 ST3500630AS 465.76GB OK
-- -- -- NOT PRESENT
Unit 2 15 drives RAID 6 5.91TB INOPERABLE
-- -- -- NOT PRESENT
-- -- -- NOT PRESENT
-- -- -- NOT PRESENT
-- -- -- NOT PRESENT
-- -- -- NOT PRESENT
-- -- -- NOT PRESENT
-- -- -- NOT PRESENT
Port 7 ST3500630AS 465.76GB OK
-- -- -- NOT PRESENT
-- -- -- NOT PRESENT
-- -- -- NOT PRESENT
-- -- -- NOT PRESENT
-- -- -- NOT PRESENT
-- -- -- NOT PRESENT
-- -- -- NOT PRESENT
|
('A`):「えーと、誰かいますか?」
( ^ω^):「はいよー、何でしょう?」
('A`):「「ぞうさん」のHDDを1つ抜いて欲しいんだけど・・・」
( ^ω^):「何番のHDDを抜けば良いの?」
('A`):「#1をお願い」
( ^ω^):「了解、今ケージに行くね。」
その時、横に来た(^_^;)さんが一言。
(^_^;):「('A`)、('A`)、おい、おい、おい、、、、、」
('A`):「ん、何でしょう?」
(^_^;):「番号、番号(泣」
見ると、確か#1と入力したはずなのに、ICQで送ったメッセージ欄には
#4という文字が・・・
('A`):「う、う、うわあぁぁぁぁぁぁぁ」
(^_^;):「早く指示し直せ。今なら間に合う。間に合ってえぇぇぇぇぇぇ」
('A`):「・・・ダメかも。メッセージ何度も送っているけど、返事がないです(涙」
(^_^;):「もし引抜かれたら、どうなる?」
('A`):「サーバ自体は動きますし、Apacheも動きます。ただ、2本抜かれた状態になるので、
万一その他の1本がダメになると、3本抜いた時と同じくだんまり状態になります。」
(^_^;):「挿し直したとして、再構築にどの位かかる?」
('A`):「サーバの忙しさによりますが、だいたい4〜5時間かかります・・・」
そしてPIEのメンバーから連絡が・・・
( ^ω^):「はいー、HDD抜き終ったよー!」
(^_^;):「何番抜いたか確認してっ」
('A`):「えー、えー、抜いたHDDの番号教えてくれる?」
( ^ω^):「4番!」
(^_^;):「うわーん!」
('A`):「うわーん!」
こうして以下の図の状態になりました。
大急ぎで引き抜いた#4のHDDを挿し戻してもらい、リビルドが始まりましたが、これで
リビルド終了時は翌日未明になる事が確定しました・・・
その間もHDDの引抜きやリビルド開始時などで「花子のささやき」は続きましたが、
「ちゃんとやってよー」とまるで苦しみに悶えている様に('A`)には思いました。

('A`):「すんません、すんません。」
(^_^;):「いい。それよりこうなったら腰すえて復旧するぞ!まずは、どうすれば#1を
元のユニットに戻せるかを調べよう。そしてどうやったらホットスペアを
設定できるかも、ね。」
('A`):「はい、今からマニュアル見て調べます。」
(^_^;):「OK。ところでさあ・・・」
('A`):「はい?」
(^_^;):「腹へっちゃった。ピザ頼んでくれる?」
(^_^;)さんと2人でピザを食べながらRAIDの戻し方がだんだん判ってきました。
・ディスクを戻す時には新品(又はフォーマット済)のHDDを入れる
(使用済のHDDを挿すと、RAIDコントローラー側で再利用しない、と認識される)
・#1のHDDを挿す前に分離されてしまったユニット(Unit1)の定義を削除する
・挿した後でRAID管理システム(3dm2とか)からHDDのリスキャンを行なう必要がある
(これによって利用可能なHDDがどれかを認識し、自動的にUnit0への組み入れが
行なわれる)
・ホットスワップのHDDを設定するには、ユニット作成時にユニットの構成タイプを
「spare」に設定する
|
(^_^;):「何でも自動的に判断してはくれないか。。。」
('A`):「そうですね。ただ方法はこれで判りましたから、後は操作する人間が
間違いの無い様に設定すれば済む事です。」
(^_^;):「そうだな。さあ、明日はリベンジだ!」
こうして、紆余曲折を経て「ぞうさん」のRAID再構築は進んで行きました。
次回はRAID再構築&ホットスワップの作成の結果についてお話します。
|
|
|
|
|
6日目に戻る。 8日目に続く。
解析
|