アカウント名:
パスワード:
で、その kernel ごと暴走したと思われるマシンの kernel dump は取得されましたか?
さ、みんなで デバッグ祭りだ (^o^)/
> WDTとかで自動で再起動(、予備系への代替又は死亡フラグ掲揚)ができないのか?
そー言う展示を今年のITproEXPOで山ほど見てきました。プロセスが死んでるか生きてるか監視して、死んでるのを確認したらプロセス単位で予備系に切り替えるとか、そのプロセスが走ってる仮想サーバを予備系に切り替えるとか、その切戻しとか。
医療用機器のように瞬断がむちゃくちゃクリティカルな現場では採用されてるかどうかわかりませんが、家電のように瞬断程度なら問題ないとこならそれでいいのかも。
各層のキャシュの障害の可能性も考えると、主メモリ及び各層キャシュのダンプを採るにも予め専用のハードウェア等の具備が必須でしょう。
カーネルダンプが取れなければ、ハードウェア障害の可能性を疑えばよい。カーネルダンプが取れる程度の障害なら、ダンプを解析すれば大抵ソフトのバグが見つかる。
もちろん、その中間の「デバイスドライバーの暴走」とかも実際にはありえるが、そのような状態でプロセスが生きているとは思えない。login していろいろ操作できたのだから、スケジューラ周りは生きていたはずだ。
というわけで、十中五六、ダンプは取得可能だったでしょうし、取得したら見つかるのはソフトウェア障害だと思いますよ。「どうせリブートするのであれば」ダンプを取ろうとしてみる、というのがよいかと。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
クラックを法規制強化で止められると思ってる奴は頭がおかしい -- あるアレゲ人
お疲れ様でした (スコア:1)
で、その kernel ごと暴走したと思われるマシンの kernel dump は取得されましたか?
さ、みんなで デバッグ祭りだ (^o^)/
fjの教祖様
メモリのソフトエラー (Re: お疲れ様でした) (スコア:2)
# 原因が何にせよWDTとかで自動で再起動(、予備系への代替又は死亡フラグ掲揚)ができないのか? だとしたら∗n∗x系OS(当然Win∗は論外)の家電や軽鯛等への安易な搭載は危険ですね。ましてフェイルセーフが難しい医療や運輸交通やエネルギーや宇宙等への適用は(現時点では)止めですな。
Re:メモリのソフトエラー (Re: お疲れ様でした) (スコア:1)
> WDTとかで自動で再起動(、予備系への代替又は死亡フラグ掲揚)ができないのか?
そー言う展示を今年のITproEXPOで山ほど見てきました。プロセスが死んでるか生きてるか監視して、死んでるのを確認したらプロセス単位で予備系に切り替えるとか、そのプロセスが走ってる仮想サーバを予備系に切り替えるとか、その切戻しとか。
医療用機器のように瞬断がむちゃくちゃクリティカルな現場では採用されてるかどうかわかりませんが、家電のように瞬断程度なら問題ないとこならそれでいいのかも。
KyaTanaka
Re:メモリのソフトエラー (Re: お疲れ様でした) (スコア:1)
カーネルダンプが取れなければ、ハードウェア障害の可能性を疑えばよい。
カーネルダンプが取れる程度の障害なら、ダンプを解析すれば大抵ソフトのバグが見つかる。
もちろん、その中間の「デバイスドライバーの暴走」とかも実際にはありえるが、そのような状態でプロセスが生きているとは思えない。login していろいろ操作できたのだから、スケジューラ周りは生きていたはずだ。
というわけで、十中五六、ダンプは取得可能だったでしょうし、取得したら見つかるのはソフトウェア障害だと思いますよ。
「どうせリブートするのであれば」ダンプを取ろうとしてみる、というのがよいかと。
fjの教祖様