バグに当たってkvmホストOSが落ちて右往左往
サブ自鯖とは言え、久々にやらかしてしまった(´・ω:;.:…
事の発端は"ns-lab BB"のサブ仮想サーバのホストOSをCentOS6.6にアップデートした事から。
サブ自鯖ではホストOS上でkvmを動かしていて、検証環境・DNS・監視サーバ・etcが乗っかっていたりする。
で、(仮想サーバ)台数が多く自作スクリプトを一元管理したいという思惑がある為、
ホストOS上にNFSを構築し、そのディレクトリをゲストOSで見る仕組みになっていた。
昨今ならiSCSIなのだろうが、NFSの方が管理が楽なので自分はNFSを使用中
本来なら、kvmホストOSではハイパーバイザーに徹するのが常なのだが、
自鯖民だと物理リソースの限界もあるわけで、主幹系のサービスだけはホストで動かすようにしている。
そうすれば、メイン/サブのどちらかが不調になっても、ゲストOSをコピーする事でサービスを継続可能なので…
で、今回はここの箇所に問題があった(らしい…)
ゲストOSからホストOS上のNFSにアクセスしていると、
ターミナル上にCPUとkernelのエラーが出だして、
10~60分程度放置するとホストOSがログも出さずにいきなり停止してしまった(´;ω;`)
最初は、NFS周りのバグを疑ったのだが、どうやらkernelの方が原因らしく、
kernelを一つ前の物にロールバックしたら、元通りの安定稼働に入った。
ちなみに、サブ自鯖で使っていたバグ有り(?)kernelは"2.6.32-504.el6.x86_64"
色々調べてみると、極々少数の環境で発生しているらしく、コミュニティに報告がチラホラと…
この事をGentoo使いの友人S氏に聞いてみたら『多分、kernelのビルドオプションミスじゃね?』と言っていた。
恐るべし、Gentoo使いのkernel友達度。
真相まで調べるのは骨が折れるので調べていないのだが、
"迂闊にkernelのバージョンを上げるとドツボに嵌まる"という、自鯖屋にとっては良い経験でしたとさ(´・ω・`)