/.Jに聞け:今までに経験した、馬鹿らしい障害原因は? 184
ストーリー by headless
ほぼ編集が終わっているストーリーをリセット。今日は2回目。 部門より
ほぼ編集が終わっているストーリーをリセット。今日は2回目。 部門より
あるAnonymous Coward 曰く、
LARTHの日記で知ったのだが、「アクセスカウンターの表示件数を越えるアクセスがあったため」に岡山県総合防災情報システムが閲覧不能になったそうだ。
アクセスカウンターは5桁ということで、10万を超えるアクセスがあった場合ページが表示できなくなっていたそうだ。非常に原因はばかばかしいものではあるが、だからこそ意外に見落とされやすいバグかもしれない。/.J読者にはシステム開発に携わる人が多いとは思うが、今まで経験した障害の中で、「原因がばかばかしかった障害」はあるだろうか。公開できる範囲でお教え頂きたい。
馬鹿みたいな障害対応ならひとつ (スコア:5, おもしろおかしい)
Re:馬鹿みたいな障害対応ならひとつ (スコア:2)
良く冷えるんですかね?^^;
アイが足りなかった (スコア:5, おもしろおかしい)
cgi のプログラムを良く見ると・・・・・・
Content-type: text/html;charset=shft_JIS
ああ、アイが足りなかったんだ!
SSHでログインして、ルーチン作業中 (スコア:4, 参考になる)
↑↑Enter
↑↑↑Enter
↑↑↑↑↑↑ ↑Enter
あれ、コンソールがフリーズした
打ったコマンドは
ifdown eth0
えー? なんでコマンド履歴にこんなものが
ということはあった。
リモートkvmがあったので、被害は数分で済んだけど
無自覚テロ (スコア:4, おもしろおかしい)
「本番のJSPを差し替えたら、TOP画面が出なくなったんだけど、バグじゃないの?」
「そういうの、気軽にやんないでもらえますか?」
東日本大震災の影響 (スコア:4, 興味深い)
震災後,本来の目的とは異なるがデータを管理できるモノとして大いに活用され,どんどんデータを登録していたら管理可能上限を超えて,システムが使用不能に。
限度を越えそうなときに警告を発するなどの仕組みを組み込まなかったのは手落ちですが,想定の100倍以上のデータが発生することもある,という教訓でした。
# 改修して動いているし,改修費は出してもらえる。双方に落ち度はなかったと互いに理解しているので。
物理的原因 (スコア:3, 参考になる)
Re:物理的原因 (スコア:3)
AS/400は経理や財務などでよく使われる関係で、サーバ室でなく、一般オフィスに設置されることも多いし、(保守契約には入っていても)普段は専門家によって管理されないことも多いから、ちょっとエアコンが止まったくらいで故障していては売り物にならないのでしょう。(中小企業にオフコン代わりに導入される事例も多かった)
Re:物理的原因 (スコア:2)
吸排気3題 (スコア:2)
Re:ああ、改行が必要だったのか (スコア:1)
ID持ちなら http://srad.jp/my/comments [srad.jp] の「標準のコメント投稿モード」をテキスト形式にすれば、brタグ入れなくても改行が反映されるようになります。
1を聞いて0を知れ!
Re:ああ、改行が必要だったのか (スコア:2)
こういう一言多い人も嫌われるんでしょうね
s/ような性格だから嫌われるんでしょ/必要なんてないですよ/
そもそも実装していなかった (スコア:3, おもしろおかしい)
なぜかその状態で数年間バレずに動いてたり
発覚はしてなかったんですが (スコア:3)
消費税率がフレキシブルに設定できるシステムだったんですが、一カ所だけ消費税率がハードコーティングされていました。
見つける前に消費税率が変わらなくて良かったと思います。
Re:発覚はしてなかったんですが (スコア:2)
書き直すのが大変そうですね。
ネットワーク障害 (スコア:2)
ユーザが勝手に追加したHUBに、更に勝手にネットワークケーブルを追加し・・・結果、ネットワークがループを起こして以下略。
#もう時効だと思うのでID
ぐったりんぐ
Re:ネットワーク障害 (スコア:3)
小さなハブ一台、PC一台を追加するだけで呼びつけられるのもバカバカしい気がするし、現場もそう思うので勝手に追加されちゃう。
そういうとき、往々にして投げ売りされてる安物のハブを使われて、いつの間にか故障してしまう。PCやプリンタなら目に付くからすぐに状況を把握できるけど、ハブは机の裏にあったりして、勝手に追加されていることに気が付かなかったりする。
Re:ネットワーク障害 (スコア:2)
WIFIルータのような、「便利なら何でも一緒にしちゃえ」的な製品は、他にDHCPサーバが存在するか確認して、
この状態でDHCPサーバを動作させるとネットワークに不具合が生じます。それでも動作させますか?
と問い合わせる程度のことはするべきでしょう。
まぁ、よく理解していない人ほど、わずかでも安い製品を購入する傾向があるので、それなりに丁寧に作られたものが選ばれることがなく、悪循環ではあるのですが。
Re:ネットワーク障害 (スコア:2)
10年ほど前ですが、同じ経験しました。
その時の元凶はWifiルータではなくOpenBlockでしたが。
なんとも緩い時代(職場?)でした。
Re:ネットワーク障害 (スコア:3, 興味深い)
介護老人ホームに設置した無線LANがよく壊れるので調査に行ったら
異常な超高出力(無線LAN用のスペアナが振り切りました)で電波を発してる
謎の無線LANAPのせいで客先に設置した無線LANAPが多量に破損していた
MACアドレスはSamsung社のベンダーIDだったけど発信源は未だに不明
介護老人ホームにあんな物設置したら医療機器が誤作動しそうだけど・・・
施設の誰もその機器について知らないのがもう最悪。
#ちなみに該当施設は山の中なので外来波で無い事は確実・・・
水を飲むと屁(CH4)をこきます
Re:ネットワーク障害 (スコア:2)
そういうときは、アテネッター [wikipedia.org]を使って、フォックスハンティング [wikipedia.org]をしましょう。
妙に懐かしい。。。
Re:謎の電波を特定できるとな!?(フレームの元へのレス:-1) (スコア:2)
それって遠距離無線通信用のAPだったってことは無かったのですか?
#障害物がなければ数Km飛ぶなんて普通の世界があるんですよねー
Re:ネットワーク障害 (スコア:2)
昔、MORPGとP2Pを同時にしていた時代、
P2Pの接続をすると、1時間に1回位の間隔でMORPGが接続切断される。
仕方が無いので、MORPGやるときにはP2Pしないことにした。
転居してルータ変えたら何でも無く動いたので、おそらくルータの処理能力不足。
(だが、古いルータはまだ実家で使用中。
ハブは買ってきてつなぐくらいはできるようだけど、
さすがにルータの設定は難しいらしい。
簡単設定とかできないモデルだったからなあ。)
筐体が頑丈だった頃 (スコア:2, 参考になる)
当時は、まだ珍しかったフルタワー型のサーバ機が、踏み台にされ、
乗った人が、バランスを崩した際に倒されて、システムが止まった
ことがあります。 (似た話しは他所でも聞きました)
検査と修理から戻ったサーバ機には、土足厳禁の貼り紙が。 < それは違う。
ユーザは「普通に使ってたら壊れた。直せ」と訳の分からない供述をしており (スコア:5, 興味深い)
某ごつい兄ちゃん達が使う装置を作っているんですが。
ある日「普通に使ってたら壊れた。直せ」と言って帰って来た装置を見ると、そこにはどう見ても踏みつけたとしか思えないへこみ後が。
どう見てもこれ上に乗ったでしょうと言ったら「鋳物で作られた頑丈そうな箱だったので踏み台に使った」という答えが返ってきました。丁重に「鋳物は鋳物でも精密アルミ鋳物なので肉厚は2ミリ程度しかありません。乗ったら壊れます」と説明し、スラドの変な物アイコンに×印をしたような警告シールが添付されるようになりましたとさ。
また別の日「普通に使ってたら壊れた。直せ」と言って修理で帰って来た装置をみました。今度はカメラの保護ガラスは割れています。しかし、なんですかその焦げ跡。なにしましたかと聞いたら「霜が付いて見えにくかったので手元にあったバーナーで霜取りしようとした。分厚いガラスなので大丈夫だと思った」という答えが返ってきました。丁重に「厚かろうと薄かろうとバーナーであぶったりしたら割れます」と説明し、マッチ一本火事のもとみたいなアイコンと共に「火あぶり厳禁」という警告シールが添付されるようになりましたとさ。
またまたさら別の日「普通に使ってたら(ry
この手の話はいくらでもあります。
結局ユーザは予想外の行動をする物だという話しなんでしょうけど「電子レンジに猫を入れるな等と書くのはばかげてる」みたいな話しもあり難しい所です。
障害らしい障害は無かったが (スコア:2)
フリーアクセスフロアパネルを1枚開けた時、被覆を剥がして手で捻って継ぎ足したUTPケーブルを発見した時は絶句した。
リセットボタン (スコア:2)
それを床置きにしてた時に、突如リセットが・・・・・・・。
一時間ぐらい調べても分からなかったが、ふと見たら椅子のキャスターがちょうど良い高さに・・・。
角度によっては見事に押される事が判明し、リセットボタンにカバーを付けました。
トータル半日無駄にした上に脱力でその日は仕事にならずでした。
修理に出したら…… (スコア:2)
BTOで買ったメモリ2GB(ユーザの触れるスロット1、触れないスロット1)のノートPC。
キーボードに水をかけてしまったので修理に出したら、
「弊社の搭載品ではありませんので保障しかねます」ってメモリが1枚外された状態で帰ってきた。
「BTOで買ったからそれはないんだけどなあ……仕方ない、自分で挿すか」と思い、裏ブタをあけるとメモリ挿さってる???
で、本体側のユーザの触れられないスロットはメモリ挿さってない!!!
さすがにどうしようもないので、クレーム入れました。
さすがに2回目はタダでした。
Router再起動の時に… (スコア:2)
CiscoルーターのIOS VerUP時にActiveSUPが故障してコンフィグの入ってないSUPに交換して再起動。
↓
なんか、上がってきたらプロンプトに『Router>』とかでてるなぁ…とか…。
↓
そういえば、CiscoルーターってActive側SUPからstandby側SUPにコンフィグシンク走らせてるよねぇ…
↓
交換してコンフィグ入ってないSUPからコンフィグ入ってないことがStandby側SUPにシンクされた?
↓
やっぱり立ち上がっても通信復旧してないので、コンソールサーバー経由でTelnetログイン許可
↓
バックアップコンフィグからひたすらコンフィグ投入して復旧
教訓
SUP交換する時はメモリーカードにコンフィグをセーブしておきましょう。
コンセントがない・・・ (スコア:2, 興味深い)
マシンを納品に行き、指定された部屋へ・・・
信号線の類はちゃんと工事されて完璧かと思われたのですが、ただひとつ見落としているものがありました。
その部屋にはコンセントがひとつもなかったのです。
客先もコンセントってフツーに部屋にあるもんだろうと思い込んでいたようです。
linuxがまだ若かった頃 (スコア:2)
LANの経路制御が混乱した原因は突き止めたモノの施錠のためシャットダウンもなにもできず。幸い10Base5で廊下にトランシーバが露出してたのでそのマシンのAUIケーブルをぬいた。
自業自得のとばっちり (スコア:2)
1 ログを残す&&IPアドレスを逆引きしようとしてDNS問合わせを出す
2 B大学からDNS回答が帰ってくる
3 DNS回答がフィルタに引っかかる
4 最初に戻る
結果として、ログを入れてたHDDが溢れて障害認知。
・ A社の担当者は、「B大学からのパケットがフィルタに引っかかったログでHDDが溢れた。これはB大学からの(今で言うDOS)攻撃である」と判断
・B大学某学科に猛抗議
・某学科の担当者あわてふためく
・某学科の担当者困惑。A社が提示したログには某学科のIPアドレスとプライベートIPアドレスだけが記されていた。実は当該のマシンはNATの内側
・某学科のスタッフ、最終的にはA社の設定の問題と看破、A社に連絡
・A社から謝罪無し
某学科のスタッフってのが私。
UPS (スコア:1)
たいした障害じゃないけど。
掃除かなんかのために抜いたコピー機の電源プラグをさすコンセントを探していたときに、
ちょうど空いてるコンセントがあったのでさしておいた。
それがUPSのコンセントだったため、建物の定期点検の停電時にUPSが作動して、
コピー機に電源を食いつぶされたことがある。
大学のあまり大事じゃない部屋での出来事だからたいした被害はなかったけど、
UPSには大事な機械以外つないじゃいけないと学んだ。
Re:UPS (スコア:2)
UPSの導入や管理を担当していれば、接続する消費電力を意識するから、そんなことはなかったでしょうね。
バッテリーの更新時に、新品のUPSと大差ない費用がかかったりして、悩んじゃうんだよね。終夜運転しているUnix WSだけど、NFSくらいでDBサーバとかじゃないから、小まめにバックアップしてUPSは止めようかなとか。
データセンタにて (スコア:1)
・作業員が誤って電源プラグ抜いちゃった
・メンテナンス対象外のサーバを落としちゃった
馬鹿馬鹿しいというか信じ難いというか・・・
Re:データセンタにて (スコア:4, 参考になる)
Re:データセンタにて (スコア:2)
Re:データセンタにて (スコア:2)
ちなみにうちは運用室で起こりましたが、掃除会社(というビル管理?)に苦情入れて以来は大丈夫でしたよ。
もちろん、空いている壁コンセントからとれと指示もしましたしね。
IPアドレス設定での問題 (スコア:1)
緊急電源遮断スイッチを引っ張ったバカが・・・ (スコア:1)
はるか昔のマシン IBM S/38 なんですが、納入し電源を初めて入れたその日に「緊急電源切断スイッチ」を納入先の社長が
引いてハードディスク破損、緊急電源切断スイッチ交換(引っ張ると電源断となる構造で、部品交換しか復旧方法なし)に
陥った事があります。
本人曰く、いかにも引っぱって欲しそうな形だったと orz
漏電警報 (スコア:1)
ある日、ビルの漏電警報器がガンガン作動した。該当するテナントを絞り込み、あるコンセントを挿すと漏電するところまでは特定できた。しかし、なんど調べてもパソコン等に漏電してそうなところはない。ふと天からのささやき声が聞こえて?パソコンがつながってる電源タップのネジはずしてみたところ、なんと中の配線が間違ってた。その時はしばらく思考停止状態になってしまった...orz。
Re:漏電警報 (スコア:3)
PC関係じゃないけど、平行して走ってる2本の線(白と黒)にお祭りのランプを付けて行って、最後の端をじーっと眺めている人がいたので、「どしたん?」と聞いたら、「この端っこは繋いどかんといかんじゃないか?」とか言い出すので、慌てて周りの人が止めたということがありました。
(なんとなく、連想した状況ですが、ひょっとしてそうだったりとか)
#お祭りの電源を近くの電柱から拝借してたのは内緒。
Re:漏電警報 (スコア:2)
自作の測定用装置を何台か作って設置したら、設備担当から『漏電してるぞ!』と御叱り電話が来ました。1台ずつ電源を抜いて行って漏電している個体を特定して、筐体を開けて電源周りを再確認するも誤配線等はなし。で、最後にまさかと思って電源ケーブル(普通の5-15PとC13がモールドされたやつ)を調べたら、LineとGNDが中で入れ違いになってました。
購入先の商社にクレーム入れたら「お金返します。ケーブルは捨てて下さい。」そのしばらくして「やっぱり原因調査しますから、まだ捨ててなかったら返送してください。」
送られてきた返送キットに詳細(っつー程のもんでもないですが)書いた紙と一緒に入れて送り返しました。返金はされましたが、調査結果はとうとう来ませんでした。(まあ約束もしてませんでしたし。何となく一言ぐらいあるかな~と期待してただけなんですが。)
以来、検査項目がまた一つ増えました。
Re:漏電警報 (スコア:1)
電気は詳しくないんですが、グランドとコールドが間違ってたって事でしょうか?
# 筐体触るとピリピリすると思ったら、グランドに電圧掛かってたという恐ろしい事件はあった・・・
天井が落ちて来た (スコア:1)
ある日突然、天井の板が外れてサーバ機をかすめて落ちた。
原因は漏水。溜まった水の重みでパネルが抜けた。当然そこら中が水浸し。
サーバ機への浸水も電源のショートも起きなかったのは、本当に運がよかっただけ。
担当者も知らぬ雲の上で仕様変更… (スコア:1)
とある病院。建物が古くなったので建て替え、それにともないシステムを一新することになった。
機器の選定をし、各部署やサーバの電源容量を見積もり拡張も含め必要な電源容量と空調容量を設計に入れた。
そして出来上がった建屋に機器を据え付けながら調整をしていると…容量不足で電源が落ちた…。
はい、市役所から出向してきて雲の上で査定をしたお偉方で構成する委員会でコストを削減するためにシステム担当に確認もしないまま「大幅に安い機器」(容量が小型の発電機等)に置き換えて下さっていたのでした。他にも調べると、エアコンがサーバ室の独立ではなく他との制御が共用タイプ(つまり、冬季に暖房に切り替えられたらサーバ室も暖房になる)というサーバ室用の空調としては全く使えない代物が設置されていました。委員会は建物が出来た時点で解散して担当者は既に異動でいない。
あまりにもバカバカし過ぎる人災。
Re:担当者も知らぬ雲の上で仕様変更… (スコア:1)
それなんてタワーリング・インフェルノ?
古い百貨店は古いなりの理由があるんです。 (スコア:1)
小売もやってるアパレルメーカの店舗向けの受発注システムにHDDの代わりにフラッシュメモリー搭載のマシンを納入した。
リリースしてしばらくしてから特定の店で報告されるデータの日付がたまにおかしくなる現象が発生した。
いろいろと調べるがアプリ側に問題はないし、開発元のメーカもまったく原因不明のまま、
とりあえず変になったら日付を直してねって運用になっていた。
その後3年ほどたったある日メーカから原因特定したとの連絡が
なにやら電源の瞬断が起きるとマシンは動作を続けられるが、たまにカレンダICの中の年の上2桁がリセットされることがあるらしい。
対処方法はOSにパッチ当てして上2桁を20固定にすること
まあ、100年使うシステムじゃないし…
Re:古い百貨店は古いなりの理由があるんです。 (スコア:2)
> 古い百貨店は古いなりの理由があるんです。
> HDDの代わりにフラッシュメモリー搭載のマシンを納入した。
これらに対する、オチがないんですけど。。。
古いなりの理由もわからないし。。。
Re:インターネットに繋がらない! (スコア:2)
あっあるある
他社とのデータ交換をINS回線で行っていたのだけど、繋がらないので先方の窓口に電話したら料金未納(滞納)だったのでだめだった。なん話していると確信犯で止めているっぽかったので、社内の企画部門に報告「あの会社怪しい」とね。