NTT東のフレッツ大規模障害は1台のルーターから 135
ストーリー by kazekiri
興味深いトポロジ 部門より
興味深いトポロジ 部門より
ultrageek 曰く、
昨日に盛大な大規模障害となったNTT東のフレッツであるが、 ITProに謝罪会見と障害原因に関する記事が掲載されている。それによれば、東京の1台のルーターに故障が発生し、部品交換のために待機系のルーターに切り替えたことが主要因になったらしい。 待機系への変更は通常の保守作業であるわけだが、フレッツサービスを構成する4000台のルーターにおいてルーティング情報の書き換えがされる際に、フレッツでは1台のルーターで1万5000ものルーティング情報を持っており、その書き換え負荷に耐えられなかったとのことだ。障害の起きなかったNTT東地域については、単にソフトウェアのバージョンが新しく、負荷に強かったので助かったとのことのようだ。しかし、まあフレッツだけで1万以上の経路があるのですねぇ。
冗長化と障害耐性 (スコア:5, すばらしい洞察)
# あってる?
は別物というよい教訓になる...かな。
たぶん、一遍に復旧させて経路再学習させる高負荷のテストが不十分だったんだろうなー
まあ、なかなか試しにくいとは思うけど。
# もしかしたら当事者かもしれないけどID
M-FalconSky (暑いか寒い)
よりにもよってその翌日に (スコア:5, おもしろおかしい)
回線サービスは付加価値競争へ、「品質で選んでほしい」NTT副社長が講演 [impress.co.jp]
それってツラの皮の厚さ、という意味ですか?
今までルータは故障したことがなかったのか?? (スコア:3, 興味深い)
過去に故障して待機系と切替が行われているとしたら今回だけなぜという疑問。
電力とか化学プラントなどでは運転系と待機系を一定期間ごとに切り替えるのが普通だが
ルータはやらないのだろうか。そうだとしたらそれも不思議。
Re:今までルータは故障したことがなかったのか?? (スコア:5, すばらしい洞察)
耐え切ることができていたってだけのことでしょ。
ぜんぜん不思議じゃありません。
Re:今までルータは故障したことがなかったのか?? (スコア:1, 興味深い)
だから大丈夫だった新しいほうの機材も、実は運が良かっただけで、もう少し負荷が高ければ危なかったかもしれない、と。
そんなところかもね。
Re:今までルータは故障したことがなかったのか?? (スコア:5, 参考になる)
> ルータはやらないのだろうか。そうだとしたらそれも不思議。
通信業界にいますが、系を一定時間で定期的に切替える事は聞いた事がないですね。
電力などは、そういう事しているのか....参考になります。
思うにルータの切替えやクラスタリングの切替えは完全な無瞬断では無く、
お客さんにサービスしている以上、無用な停止はできないという事では
ないでしょうか。
また伝統的な通信会社(パケットより回線交換が好きな人たち)は検証環境を
しっかりと構築し、動作確認をすることで商用をいじらないという考え方が
強いように感じます。
Re:今までルータは故障したことがなかったのか?? (スコア:5, 興味深い)
Re:今までルータは故障したことがなかったのか?? (スコア:5, すばらしい洞察)
十分な投資ができない(なされない)まま構築されたシステムが、あるときに過負荷に陥るというのは有り得ることだと思います。
将来的な部分を見越して設計されたサービスであれば、フレッツの価格帯では提供されませんし、バックボーンとのサービス品質の違いが明らかになっただけだと私は思っています。
ネットワークに故障があって困る人は専用線を引けばいいんですよ。
Re:今までルータは故障したことがなかったのか?? (スコア:1, すばらしい洞察)
ネットワークだけならそれも正論だが、ひかり電話は110番や119番などへの通話など、
ライフラインの重要な役割を担っているのを忘れずに。
携帯電話では、110番に通報しても発信者の位置が正確には特定できず、
119番に電話をしても管轄の消防署に繋がらない可能性があるので、
トラブルを繰り返すのは勘弁してほしい。
Re:今までルータは故障したことがなかったのか??(オフトピ) (スコア:1, 参考になる)
最寄りの交差点名や電柱にある番号とかを伝えるべきです.
Re:人が倒れていて警察へ?(オフトピ) (スコア:2, 参考になる)
110番通報→①県警本部で受信→②担当官が管轄署を判断→③管轄警察署へ転送
→④管轄警察署で救急措置を必要と判断→⑤消防署へ一般電話で連絡→以下119番通報に同じ
119番通報→①消防本部(市・郡単位または、広域)で受信→②救急措置が必要と判断
→③最も早く到着できる救急車が配備されている消防署へ出動命令(無線等)→④出動
となり、救急車(消防車も一緒)の出動が必要なときに、110番通報では、大きなロスタイムが 発生します。
一般に心肺停止では、蘇生措置が1分遅れると7~10%社会復帰率(蘇生しても、脳死状態では!)が 低下するとされていますし、その他の場合でも、救命措置が必要な場合は分単位の遅れが命取りです。 火災も分単位の遅れが被害を左右します。
救急や火事の場合は、119番通報が鉄則です。
(参考) 救命曲線 [google.co.jp]
Re:今までルータは故障したことがなかったのか?? (スコア:1, 興味深い)
機械ものは予備系統を稼働させずにほったらかしておくと,いざというときに障害の出ることがあるので
まあ,いろいろと余裕があって,かつ信頼性重視のところだけど
Re:今までルータは故障したことがなかったのか?? (スコア:2, 興味深い)
予備系の通信路にも常に運用系と同じデータが流れている。
だから運用系でトラブルがあったときに、
トラブルの部分だけの通信路を予備系に瞬時に切り替えて
しかもデータロスト無しという芸当ができる。
だから長い間予備系をつかっていないといざと言うとき動かない、
と言うことは無いですよ。
と、これは建前で、やはり一番の弱点はこの切り替えの瞬間の処理にあるわけです。
潜んでいたバグがここで顔を出し、運用系予備系ともにダウンと言うことになり
通信途絶なんてのは、ありがちな話。
Re:今までルータは故障したことがなかったのか?? (スコア:1, 興味深い)
やらない文化だよね。
交換系は、昔は磁気ディスク等利用してましたが、伝送系は半導体メモリ系に設定情報
が収まってくれる(ことが多い)のは影響しているかも。
あと、交換系は系切り替えおこなっても、交換機の伝送側は系の概念ないよね。
(SDHのプロテクション対応のぞけば)
ま、ところ変われば、という感じですかね。
Re:今までルータは故障したことがなかったのか?? (スコア:3, 興味深い)
ISDN交換機でも、同様の事例もあったとか。
/* Kachou Utumi
I'm Not Rich... */
Re:今までルータは故障したことがなかったのか?? (スコア:1)
流石に上位ISPにつなげてる下位ISPには、詳細情報が伝わっているだろうけど。
/* Kachou Utumi
I'm Not Rich... */
Re:今までルータは故障したことがなかったのか?? (スコア:3, 参考になる)
動いているものは基本的にいじらないことが多いです。
それどころか、メンテナンスのためにUPS供給から商用供給に切り替えたいといって作業を申告しても、
通常なら絶対に影響が無いにもかかわらず、サービスの種類によって絶対にやらせてくれないユーザもいます(怨)
で、オーバーホールが出来なくて経年劣化でUPSが壊れて、出力断なんて間抜けな話もあります。
故障して文句を言うくらいなら最初から設備屋の忠告を聞いて作業をさせて欲しいです。
Re:今までルータは故障したことがなかったのか?? (スコア:2, 興味深い)
単に営業が無能なのでは?と毎回おもいます
現状維持による微量なメリットと
多少の不自由さと引き替えにリスク回避ができることの説明が全くできない
そもそもは、初期導入時に機器メンテによる停止を行う必要性を説明せずに
契約を取ることだけを仕事としている営業が多すぎる
個人顧客相手のフレッツの営業なんてもっと悲惨で
導入までの手順説明も出来てないし、
光線引き込み工事の確認や説明もできてない場合も多い、
実際工事日に「壁に穴開けて引き込みます」とかって話が出て
顧客が「そりゃ困る」と中止になるケースが多い
まあ、個人顧客の場合はコンサルがちゃんとしてないのが
悪いのだが、営業さんももう少しちゃんとしようや
Re:今までルータは故障したことがなかったのか?? (スコア:1, 参考になる)
NTT東日本攻略法? (スコア:2, 興味深い)
壊滅させることが可能っぽいように読めるんだけど、そういう認識でいいの?
IPネットワークって、そういう事態を避けるためのネットワークだと思ってたんだけど。
Re:NTT東日本攻略法? (スコア:5, 興味深い)
以下、Wikipedia [wikipedia.org]より引用です。
また出典は忘れましたが、そもそも国防省がスポンサーになったのも、他にスポンサーになってくれる所が全然見つからなかった為だった、というエピソードがあったと思います。
Re:NTT東日本攻略法? (スコア:3, 参考になる)
説明めんどくさいしインフラ技術にはどっちかというと疎いんで結果だけいうと、
蔵前にあるNTT東の建物を破壊したとしても確実にフレッツ網が死ぬとは言えません。
ただ、今日明日くらいならかなりの高確率でフレッツ網がダウンするかもしれない。
あと、現実的に考えてNTT東がターゲットならいざ知らず、複数のIXを同時、もしくは
数分程度の時間差で物理的に落とすとかすれば全国的に今回のNTT東の様な現象が起き
るかもしれないし、エンドユーザのIP網が死ななかったとしても経済的な被害の範囲と
規模もより大きくできるんじゃないかと。
そういう事態を避ける為のネットワークを作りすぎてた、というのが今回の原因。
Re:NTT東日本攻略法? (スコア:2, 参考になる)
Re:NTT東日本攻略法? (スコア:1)
ARPANETの開発は、そうした通信トラブルに強い通信システムを構築するという側面があったように思うのだけど。
どこの文献だったか忘れましたが、通信網のようなスケールフリーネットワークでは、全体の8割程度が機能停止しないかぎり
ネットワーク全体が停止してしまうことはないという記述を読んだことが。
犬が犬であるように、猫でありたい
Re:NTT東日本攻略法? (スコア:1)
pingが通ったんでいいかなと帰ったら、つながらないサーバーがやたら
あって大騒ぎしました。半日くらいつながらなかったかな。
macアドレスを覚えすぎていたんじゃないかという結論なのですが
インターネットが出来たころにはそのようなものはなかったから
理論的に柔軟に経路がかわると言えたのかなぁ。
結局、関連するルーターとかサーバーをリブートして経路は確定したのですが
さすがに大規模なシステムで全部リブートはおっかないですね。
Re:NTT東日本攻略法? (スコア:1)
全接続機器でarp cache table のclearかければよかったんではないかと。
# rm -rf ./.
Re:NTT東日本攻略法? (スコア:1)
そういう目的で構築されたInternet網とNTTのIPネットワークは別ではないでしょうか?
IPプロトコルでパケットが流れるとしても必ずしも物理的な経路が網の目状である必要は
ないのですから。
Re:考えてみた (スコア:2, 興味深い)
梅田と大手町のビル内部で1ktも起爆させれば終了でしょう。この程度ならテロリストでも作れる可能性が高い。
真に政治的な連中は、付随的被害など気にしてない(もしくは付随的被害もある程度大きくしたい)ものです。
Re:考えてみた (スコア:1)
>通信設備の電源を壊滅的に破壊するなど複数の工作を同時に行う必要がある。
国電同時多発ゲリラ事件 [wikipedia.org]?それとも世田谷ケーブル火災事故 [u-tokyo.ac.jp]?
いずれにしても古いな・・・・
見たような聞いたような・・・
itinoe
ミラールーターって無いの? (スコア:1)
規模が小さなところでは新しいのに置き換えてルーティング情報書き換えればそれでOKなのでしょうけど、ある程度以上の規模では今回のような事が起きないよう待機系との切り替えだけでなく重複化も必要かと思います。いくらかはやってたのかも知れませんが。
#ネットワーク構成が変われば書き換えは起こるでしょうけど、上の場合は機器の一部に障害が起きても見かけ上の構成は変化しないようになってる機器と仮定して書いてます。
Re:ミラールーターって無いの? (スコア:1)
#Catalyst 6500を4,000台だと百億円は下らないな…
Re:ミラールーターって無いの? (スコア:1)
経路情報のやり取りとミラーリングってのはちょっと違うと思います
問題のルータにはこう刻まれていたらしい (スコア:1)
一つのルータは全てを見つけ、
一つのルータは全てを捕らえて、
暗闇の中に繋ぎとめる
フレッツの稼働率は99.92% (スコア:1, 興味深い)
障害該当地域では、99.99%以上の稼働率を要求する案件には使えないということですね。
(この障害が無くてもフレッツをそんな案件に使うというのは、適切な判断だとは思えませんが)
ひかり電話に限れば、昨年の障害も合わせて、稼働率99.9%も割っています。
ニュースサイトによっての相違 (スコア:1)
IT Proの記事 [nikkeibp.co.jp]
ITmediaの記事 [itmedia.co.jp]
2つのサイトで、障害のきっかけが微妙に違いますが…どっちが正しいんでしょう?
#他のニュースサイトは未チェックです。すみません。
難しいことはわかんないね。 (スコア:1)
みなさん「ひかり電話」は通じませんし、ごめんして下さい。
こんな品質、昔の日本で許されたか。そうじゃない気がする。
こてんぱんにやられましたわ。我が世代。
と、思いました。
がんばろう。と自分に言い聞かせる。
Re:難しいことはわかんないね。 (スコア:1, すばらしい洞察)
そのたびに電力会社があやまってたかというとそうではなくて
みんなそういう物だと思って暮らしてた。
Re:難しいことはわかんないね。 (スコア:1)
落雷とか送電事故とかで。瞬間停電などはよくあるようです。
気がつかないのは自家発やバッテリーなどのビル側設備があるからです。
さすがに大規模・数時間になると持たないですが。
#一般家庭用では変電所が頑張ってるのではないでしょうか?
Re:耐えられませんでした~って (スコア:3, すばらしい洞察)
Re:耐えられませんでした~って (スコア:1)
営業目標なんかを基に設備計画を立ててるわけですし、
運用上のルールでキッチリしているはず。
・・・してるはず・・・
--- (´-`)。oO(平和な日常は私を鈍くする) ---
Re:耐えられませんでした~って (スコア:2, 興味深い)
そうだとすると仕様のミスじゃないのか。
耐えられなくなったら、ダウンするのじゃなく、もっと違うことをすることがあるのではないか。
待ち行列を全て破棄して、再起動するとか。
教えて、ルータープロの人。
Re:耐えられませんでした~って (スコア:1, すばらしい洞察)
今回は再起動で治ったみたいだけど、、、
問題があると自働で再起動だと、ヘタすると永遠に再起動しつづけるトラブルにはまっちゃうかもよ。
しかも、周りに自分が復帰したぜぇいってメッセージを送って、やっぱり死ぬって感じになってハタ迷惑になるかも。
さらに、無限再起動になると、管理者からしてみれば何が起こっているか把握しづらいだろうし、余計に厄介になるんぢゃないかな。
そう考えると、どうしようも出来ないときは、機能を停止するって管理者の指示を仰ぐって仕様も悪くは無いんぢゃないのかなぁと。
Re:なんでそんなに経路情報が多いんだ? (スコア:2, すばらしい洞察)
一部のオタが最適化してくれるかもしれませんよ(笑
Re:なんでそんなに経路情報が多いんだ? (スコア:1, 興味深い)
PPPoEの接続拠点数 x n台ルータ+フレッツ網からインターネットへの出口ルータがサービスISPの数 x n(ISPにより複数,各県別にあったりいろいろ)台
あって、加えて管理用のルータが別にある(何処にあるかは知らん)
それらルータがぜーんぶフラットに網につながっているの?という感じかな。報道発表をみたところでは。
各県毎に一旦集約してroutingしてるのかと思っていたがそうではなかったのかもしれない。
Re:なんでそんなに経路情報が多いんだ? (スコア:1, 余計なもの)
ことなんでしょうかね。
IGPで15k経路ってのは確かに多いですね。
発表の記事を読んでみてですが
softwareによってmemoryの持たせ方とか違ってて
new versionなsoftwareだと、15k経路でも問題なくなってる
っていうお話なんですよね。
software upgradeがworkaroundの1つだろうけれども
機器をupgradeするか経路を減らす努力をするかは
中の人ががんばらないといけないってことですね。
がんばってください>中の人
Re:なんでそんなに経路情報が多いんだ? (スコア:1, すばらしい洞察)
読みにくいわ
英語なら全部英語にしろよ
ルー大柴か
# トゥディもアノゥニマウスなカワード
# ではなく
# トゥディもカワードなアノゥニマウスなのでAC
Re:なんでそんなに経路情報が多いんだ? (スコア:1, すばらしい洞察)
エリア単位で経路集約してればこんな事にならなかった気もするんですが。
#素人の浅はかな発想?
Re:レベルの低い会話やめてくれ... (スコア:3, おもしろおかしい)
それが/.Jってもんです。
Re:レベルの低い会話やめてくれ... (スコア:1)
知ったら好き勝手な憶測とかかけなくなるじゃん!
# と負け惜しみを言ってみる部外者
Re:素人の疑問 (スコア:1, 参考になる)
・通常動作
・縮退動作
・リスタート
などの各種モードが自動的に行われる様になっていて、どうしても駄目なら
・停止 (エラー表示などあり)
という風な動作をします。(あくまで大雑把な例)
ま、単なるハングアップなんぞしないということです。
自分自身を監視する様になってますから。
#設計が悪い機器だと単なるハングもありえますが(笑)、
#負荷がやたらあっても簡単にはハングなんてしない様に作ります。
#それなりにパターンを作って負荷試験も行いますし。