第52日目:【oyster902->花子】データ引っ越し実施中・・・
|
どうも、('A`)です。
えーと、長年2ちゃんねるの過去ログ倉庫として活躍したoyster902(過去ログ倉庫)の
SCSIカード(ファイバーチャネルをもってます)が不調になり、急きょデータを花子
(banana3000)に引っ越ししているところです。
データをtarで固めて移動するところはむむむさんが作業され、('A`)の方では
各板のアカウント(249個もあるんです・・・)を作成中です。
ただアカウント作成が終わって、「さあ、これからセッティングとかディレクトリとか
作る作業に進めるぞー」と思ったら、花子(banana3000)が突然黙ってしまって・・・
現在fsckを実行して花子に早く立ち上がる様促しています。
それにしてもoyster902(+suma-san01)はデータセンターPIEに設置された初期の
サーバとして4年動き続けていました。
oyster902はWebサーバとして、suma-san01はストレージ部分として動いていて
2台の間はファイバーチャネルのSCSIカードで接続しています。
今回はこのカードが再起動時にエラーを出す頻度が多くなり、完全に故障する前に
お引っ越しとなりました。
ストレージ部分(suma-san01)は250GBのSATA HDDが8本搭載され、7本でRAID5を
構築し、1本はホットスペアとして割り当てられています。
(これは2ちゃんねるのいろんなスレで書かれていると思います。)
サービスは停止状態になりましたが、oyster902はまだ稼働しています。
今後どうなるのかは判りませんが、「お疲れ様」と声をかけてあげたいです。。。
今日中にはアカウント作成とセッティングを終えて2ちゃんねる側でのデータ解凍
作業が始められる様に頑張っていますが、セッティングのところでどうしても
「手作業」での修正箇所があるので、ちょっと時間かかりそうです。
あーと、今度はcobra2244のリブート要請が入りましたので、ちょっと対応してきます。
今日はこの辺で。
【16:30 追記】
やっと「花子」(banana3000)がオンラインになり、Apacheも立ち上がりました。
ご不便をおかけしました。
ダウンの原因はまだ判明していませんが、どうもアカウント作成作業中に倒れたので
RAID 5 で構成されたユニットの一部でパリティデータも含めたセクターの破損が
発生したようです。
で、手動でFreeBSDのfsckを行なって(有効領域5.7TBあるので4時間位かかるのですが)
再起動した後で、「花子」に内蔵されているRAIDカードの機能により不良セクタの修復と
パリティデータの再作成が実行されました。
(例)
May 26 23:18:50 0.2 banana3000 kernel: twa0: WARNING: (0x04: 0x0023):
Sector repair completed: port=12, LBA=0x4FAE81C
→ Port12番のHDD上にあるセクタ番号 0x4FAE81C の領域を修復しました
May 26 23:18:50 0.2 banana3000 kernel: twa0: WARNING: (0x04: 0x0036):
Verify fixed data/parity mismatch: unit=0
→ unit #0(=花子の/homeの本体:RAID 5部分)のパリティ不一致を解決しました。
|
fsck中はシングルユーザモードで動いていた為、再起動後にメールシステムが
動いたと同時に「花子」の中に積もり積もったお知らせメールが発射され、
それが「いななき Ver1.0」スクリプトによってスレにドカドカと書きこまれた、
という次第です。
「花子」に内蔵されている3WARE社のRAIDコントローラーカード(9650SE-16ML)には
”動的セクタ修復機能”というものがあって、過去何回かHDD上の不良セクタが
発見された時にセクタの修復が自動的に行われていました。
今回はセクタだけではなくパリティデータも一部壊れたので、「花子」も『初体験』の
事象でした。
無事復旧できてホッと胸をなでおろしています。
また「花子」のご機嫌が悪くならない様に、なだめながらセッティング作業を進めます。
|
|
|
|
|