Aluminum-Carbideの日記: 119番不具合は回線誤接続…想定外の人為ミス 46
日記 by
Aluminum-Carbide
http://www.yomiuri.co.jp/national/news/20110107-OYT1T00881.htm?from=main1
東京都内で今月5日、119番がつながりにくい状況になった問題で、東京消防庁は7日、災害救急情報システムのケーブルの誤接続が原因だったと発表した。
職員による人為的ミスの可能性が高く、同庁は「想定外のミス。改善策を検討したい」としている。
同庁によると、接続ミスがあったのは、119番を受理する災害救急情報センター(千代田区)にある通信接続機器。同システムのホストコンピューターから端末に接続される構内情報通信網(LAN)ケーブルの両端が、誤って同じ接続機器につなげられていた。このため、回線内に大量のデータが蓄積され、基幹システムに障害が発生したという。
異常が起きた場合には、立川市にある予備システムに切り替わる仕組みだったが、このシステムも大量のデータによってダウンした。この影響で、5日午前10時半頃から約4時間半にわたって、119番がつながりにくくなったという。
接続機器は同センターの指令室に置かれており、同庁は職員が誤ってケーブルを接続した可能性が高いとみて、内部調査を進めている。
まさか、ブロードキャストストームでの障害とは・・・想定外だった
東京都内で今月5日、119番がつながりにくい状況になった問題で、東京消防庁は7日、災害救急情報システムのケーブルの誤接続が原因だったと発表した。
職員による人為的ミスの可能性が高く、同庁は「想定外のミス。改善策を検討したい」としている。
同庁によると、接続ミスがあったのは、119番を受理する災害救急情報センター(千代田区)にある通信接続機器。同システムのホストコンピューターから端末に接続される構内情報通信網(LAN)ケーブルの両端が、誤って同じ接続機器につなげられていた。このため、回線内に大量のデータが蓄積され、基幹システムに障害が発生したという。
異常が起きた場合には、立川市にある予備システムに切り替わる仕組みだったが、このシステムも大量のデータによってダウンした。この影響で、5日午前10時半頃から約4時間半にわたって、119番がつながりにくくなったという。
接続機器は同センターの指令室に置かれており、同庁は職員が誤ってケーブルを接続した可能性が高いとみて、内部調査を進めている。
まさか、ブロードキャストストームでの障害とは・・・想定外だった
さすがに同じケーブルを同じHubにつないだ事はないけど (スコア:4, 興味深い)
以前、Trunkで接続しているHubの設定がおかしくなってしまって(まあ、人為的ミス)、ループしてしまった事がありました。
気づくのに1時間くらいかかりました。多少通信できていただけに、原因究明が難しかった。
もういいやIDで (スコア:1)
ちょwおまww俺のトラウマwww
Re:もういいやIDで (スコア:1)
最近は家庭用ハブでもループバック検知とかしますしねぇ...
# 自分もやったことある、とうか試験でやったというべきか
M-FalconSky (暑いか寒い)
Re:もういいやIDで (スコア:3, 参考になる)
昔はクロスケーブルでないとそういうことは起らなかったものだが。
あ、何故かアップリンクが余っていてそこへ突っ込んでくれた人もいたっけ。
「おめぇ、なんでこんなことするだ?」
「ケーブルが余っとったもんで、差しとかなきゃもったいないかな?と。」
#教訓、余ったケーブルはさっさと片付けましょう。あ、まだ転がっとる。
Re:もういいやIDで (スコア:3, 興味深い)
そして、予備回線のケーブルが引っこ抜かれると。
いや、確かに予備ってタグが付いていて、ランプもついてないんでありますが。
それは、当時の障害対策用の予備システム向けのケーブルでありましたorz
Re:もういいやIDで (スコア:1)
いや、ケーブル抜くより、空きポート側に蓋しておきましょう。あと、タグ。
ソフト的に殺してもOKですが、出来ないハブの方が多いだろうし。
# GbEでAutoMDI/MDI-Xが必須になった影響もあるのかねぇ・・・
Re:もういいやIDで (スコア:2)
蓋ですか、、、
「おーい、今度きたハブに蓋付いてないみたいだけど?」
「あれ、そんなとこまでケチられてるんだ。そーいや、某大学では机のネットワークの口にガムを詰めてるって話があったよ、学生が。」
「そんな、迷惑な。でも、隣同士の席でケーブル繋がれるよりはましかもしれないね」
#よいこの学生さんはこれを読んで真似しないように。
Re: (スコア:0)
「あれ?なんか変なの刺さってるけどこれなに?」
って言われて外されてた。
# 外す前に聞いてください
Re:もういいやIDで (スコア:3, 興味深い)
ちゃんと蓋と分かるもの(専用蓋あり)で蓋をしないとダメですよ。
あと未圧着のコネクタは接点が押し下げられていないので機器側の接点に規定以上のストレスを与えることになります。
(頻繁に差し替えることは無いのでしょうが、トラブルの原因になり得ます。)
というわけで、大概の人は未圧着コネクタで埋められると「変なものが刺さっているけど?」と思うのではないかと。
−−−−−
もういいやIDで。 kim339
Re: (スコア:0)
むしろスイッチを箱に入れて鍵かけるなり、「管理者以外触るな、触って障害起こしたら責任取らせる」って張り紙付けておくなりして、エンドユーザが触れない状況にしておいたほうが安全な気がしなくもないです。
触るなって明示しないと触っちゃう輩はどこにでもいるので。
# サーバのコンセント抜く掃除のおばちゃん神話とかな!
Re:もういいやIDで (スコア:1)
「触手厳禁」
と書くしかありませんね。
Re:もういいやIDで (スコア:1)
テレビのニュースでも見ましたが、会見で手にしている中継装置は日立電線の
APRESIAっぽいですね。
http://www.iza.ne.jp/news/newsarticle/event/accident/482065/ [iza.ne.jp]
おそらくこの製品だと思われますが、仕様が確認できないのでループバック対
策の可能なものかどうかは不明です。少なくとも死活監視はできるみたいです
が、パケットの嵐で管理者への通報自体も埋もれてしまったのかもしれません。
http://www.apresia.jp/products/ent/apresialight/apl210pd.html [apresia.jp]
重要なインフラの監視用ラインは別に敷設&結線するのが定番だと思うのです
が、そのあたりの情報を知りたいですねぇ。
Re:もういいやIDで (スコア:1)
まあ、普通にできる、んじゃないかとは思うんですが(スイッチのソフト非搭載の文字が..)性能劣化を嫌ったりしてあえてOffにする運用もありそうです。
ちゃんとネットワーク変更したらループしてないか検査してくれよ...
あと、指摘にもあるように管理ネットワークが別になってない可能性も高そうだな、と邪推したりして
M-FalconSky (暑いか寒い)
Re:もういいやIDで (スコア:1, おもしろおかしい)
Re:もういいやIDで (スコア:2, 興味深い)
自分が知ってるのはコレしかないかな。
http://srad.jp/comments.pl?sid=217522&cid=638829 [srad.jp]
#データセンターのスパイのひみつ道具に、LANケーブルが入る日も近いのかなあ。
#壮大なストーリ。空転するアイディア。
全盛期の掃除のおばちゃん伝説 (スコア:0)
・一日5トラブルは当たり前、半日で8トラブルも
・マシン起動直後のコード引っこ抜きを頻発
・掃除のおばちゃんにとって電源ケーブル引っこ抜きはの掃除の準備
・全ケーブル引っこ抜きも日常茶飯
・終業5分前、社員一人の状況から電源停止
・禁止マークがあっても余裕でケーブル引っこ抜き
・一回の掃除でケーブルが三本紛失
・掃除機のホースで空手の真似が特技
・掃除を始めるだけで早朝出勤社員が泣いて謝った、心臓発作を起こす課長も
・業務開始でも納得いかなければ再度掃除を開始し始めた
・あまりに掃除をしすぎるからスイッチを入れただけで業務を停止
・その掃除も電源トラブル
・社長を一睨みし
Re: (スコア:0)
掃除のおばちゃんがUPSから掃除機の電源を取っていたことが発覚。
電力不足でエラーになり、サーバをシャットダウンさせてた。
ループは永遠の問題。 (スコア:1, 興味深い)
ただ、何故かループを作っちゃだめという基本的知識が備わってないことが多いようです。家でループ作ってもなんともないから、会社でも… というパターン。残念ながら、会社のハブはバカなんですよ…
仕事が嫌になってあえてループ作ってる人もいるんじゃないかと時々疑いたくなります。
自分も、時々ハブをジーと見つめて、「ハッ」と、我に返ってみたりとか(汗
他にもよくあるのが、DHCPサーバ機能オンにした状態のマシンを社内ネットワークに接続、サブネットが大混乱。
そう言うのになると、「てめぇ勝手に許可取ってないOS入れてんじゃねぇ!」ってなって大ごとになってりしますが。
Re:ループは永遠の問題。 (スコア:4, 参考になる)
ことができるので、いろいろな人が接続する事務フロアネットワークは、
データセンタネットワークとは違ったノウハウが必要です。
・802.1X認証は必須として許可した端末しか接続しない。
802.1X対応しない機器が接続するポートはMACアドレス認証とする(可能なら別VLANとする)。
・スイッチは施錠されたラックに設置する。施錠ラックがなければ、
せめて未使用ポートはshutdownしておく。
・ケーブルはスイッチから席まで、一本一本机まで敷設し、ユーザ自身が
直接スイッチにケーブルを刺すようなことはしない。「島ハブ」は排除する。
たしかにコストはかかりますが、ループ事件のたびにフロア全体の業務が止まる
ことを考慮すれば必要なコストです。50人の業務を2時間止めれば100人時間ですから。
まして止まれば人命に関わるようなネットワークなら、言わずもがなです。
ちなみに、tagged VLAN, 802.1X、未使用ポートのshutdownは、記者会見で出てたスイッチの機種
(Apresia Light210-PDと思われる)では搭載している機能です。宝の持ち腐れですね。
コスト掛ければループは防げる (スコア:0)
どうせならAuto MDI/MDI-Xの認識を省いてしまえばいいのに。
3Comのスイッチは、スイッチ同士を結ぶ時はクロスケーブルじゃないと
繋がらなかったな。
当時はなんでAutoで切り替えないんだよ、と思ったが、今となっては正しい
設計だったのだと思う。
そうでなければループ検知機能付きの高めのスイッチを大量導入しろと。
バックアップの立川がダメになったほうが問題だな (スコア:0)
Re:バックアップの立川がダメになったほうが問題だな (スコア:4, 興味深い)
情報ソースが同じ記者会見のはずなのに,新聞媒体によって理由が違いますね。
iza!は「センターは千代田区と立川市にあり、システムを統制する通常時のホストコンピューターが千代田区に、緊急時の予備ホストは立川市に設置されている。しかし、両センターをつなぐ基幹中継器が停止したため、予備ホストにも接続できなかった。 [iza.ne.jp]」と中継システムがバックアップ移行のネックになったことを指摘。
一方,読売新聞は「異常が起きた場合には、立川市にある予備システムに切り替わる仕組みだったが、このシステムも大量のデータによってダウンした。 [yomiuri.co.jp]」と大量のデータが問題だったとしています。
中継システムが問題なのか,そもそもデータ処理量が問題なのか,原因によって二重化や処理量全体の向上か対処法は大きく違うはずなのにどのように発表されたのでしょうか?
東京消防庁 [tokyo.jp]サイトを見ましたが,記者会見の内容やリリースは見あたりませんでした。これじゃ記事の検証ができない。(こっちも問題)
Re: (スコア:0)
中継システムを含む基幹ネットワークがループのせいで死んだんじゃないですかね?
Re:バックアップの立川がダメになったほうが問題だな (スコア:1)
Re: (スコア:0)
このシステムを納入した業者はダウンタイムを想定何分と言って売りこんだのだろう。
推測にすぎないが、救急、緊急を名目に思い切り短時間を謳ってふっかけたのでは?
4時間止まってもいいならもっと構築費用を下げられたはず、と思うと激しい税金の無駄使いだし。
どこかの図書館の話どころではないような。
# backupが機能するかどうかのtestが足りなかったのだろうか。
#「想定外」のひとことで片付けられてしまうのか?
なぜループ検出が働かなかったのか (スコア:0)
Re: (スコア:0)
Re: (スコア:0)
スイッチングハブは今はストア&フォワードが主流なので、100段も経由すれば、それなりに遅延が生じますが、検出アルゴリズムによっては破綻するかもしれないよね?
Re: (スコア:0)
100段なんて多段を試したことはありませんが、専用プロトコルだから、きっとやってくれるはず。多分。
冗長構成とか、複数のインターフェースを一つにまとめて通信速度を稼ぐ技術など、物理的にループを作る構成が当たり前になってきてますから、1個設定をミスると大変ですよねぇ、最近。
セキュリティの問題でもある (スコア:0)
・悪意のある人がネットワークに障害を発生させることができるシステム・運用をしていた。
・許可を得ていない人間がケーブルの接続をできてしまう(以下略
Re: (スコア:0)
ケーブル接続に許可が必要なシステムってどう作るのかな?
スイッチ一つひとつ全部鍵付きの箱に入れとくのかね…。
鍵付きのUSBコネクタ(物理的に塞ぐためのもの)があったような気がするけど、そのRJ-45版を作って各ケーブルと空きポートに設置すればいいのかな
# おしえてえらいひと
Re:セキュリティの問題でもある (スコア:3, 参考になる)
とりあえずエレコムのセキュリティ関連サプライのページ [elecom.co.jp]です。
んで、その中に空きポートに突っ込んで鍵を掛けられるLANコネクタの貞操帯みたいなモンは売られています。
まぁ、これで確実にセキュリティが上がる!って訳では無いのですが、家から持ってきたNotePCをちょろっと繋ぐ、的な簡単な気持ちでポートを使おうとするのは防げるような気がしますよ。
#ちょっと現場の知識が弱いので空きはコレで防ごうかと検討していたりします。
Re:セキュリティの問題でもある (スコア:3, 参考になる)
気になる! itemズ [impress.co.jp]
当方はこんなのを使っています。
ただの樹脂なので専用の引き抜き工具以外でも外せるかも知れませんが。
Re:セキュリティの問題でもある (スコア:2, すばらしい洞察)
# 当方偉くもエロくもありません
Re:セキュリティの問題でもある (スコア:1)
># 当方偉くもエロくもありません
ダウト。
偉くないのはともかく、エロくないというのはうそでしょう。
Re: (スコア:0)
というか、ふつーそうしてますよね?
Re: (スコア:0)
Re: (スコア:0)
よし、以後この様なことが起きないように全部無線にしよう
Re: (スコア:0)
「誤配線は発生する」という前提で設計しないとね (スコア:0)
ミッションクリティカルな施設なんだから、障害の影響範囲を極小化するように設計すべき。
例えばエッジSWのユーザ利用ポートなら…
・BPDUガード有効とし、ループ検知時はポート閉塞すること
・AutoMDI-X無効とし、ストレートケーブルによるループ発生時にリンクアップ不可能とすること
(島ハブ利用なら、それもAutoMDI-X無効化が可能な製品を選定する)
#これで食ってる人なのでAC
ノ 経験者は手を上げなさい!!! (スコア:0)
Re: (スコア:0)
Re:大げさな (スコア:1, フレームのもと)
> それも119番が完全に使えなくなったわけでもないのに騒ぎすぎだろ。
> これが許されなかったら、ホスティングやクラウドなんかみんな不可になっちまうぞ。
荒らしというモデは不適切だな。
これ書いた奴は「馬鹿」なんだ。
# これに荒らしモデつける奴がいたらそいつも馬鹿だ。
Re: (スコア:0)
>荒らしというモデは不適切だな。
>これ書いた奴は「馬鹿」なんだ。
と、言っている人が、物事見えてないだけかと。
>大体、消防なんて金なんかかけられないし、止まったのだってたった四時間半、
>それも119番が完全に使えなくなったわけでもないのに騒ぎすぎだろ。
って調達した部署の人がそう考えていたから、今回こういうことが起きたんでしょ?
調達する部署の人が、もし「止まったのだってたった四時間半」と思っていなくても、
購買する部署の人が止まらない仕組みに対して高すぎる、と思っていたらやっぱり
ダメじゃない?
で、調達するって
Re: (スコア:0)
#全く使わないのに必要ですか?と聞かれてちゃんと答えられるんだろうか。
コメントに反応はアレですが賛成。
相手が某大臣のように技術者とは限りませんし、専門用語なしで回答できるような練習は必要ですよね。
私に問いかけられた場合は、修理に必須です!とでも答えるんじゃないかな。
もし管理ネットワークが無ければ修理はできません(つまり最大ダウンタイム=再構築)と言えば納得してくださる場合が多いですよ。