パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

NTT東のフレッツ大規模障害は1台のルーターから」記事へのコメント

  • 皆様、「高負荷だからダウンした」と説明で納得されてますが、それで良いのでしょうか?
    一般的に、プロトコルというのは、高負荷であろうとも、システム全体がハングしないように設計されてるはずです。
    ルータは高負荷のときにはハロー以外のメッセージさえ無視すれば問題ないはずです。
    ですから、今回の問題は、ルータ内部のソフトのバグの可能性が高いと思います。
    同じルータは、NTTに限らず全国で使われてたりしませんか?
    つまり、同じルータを使ってるネットワークでも、今回と同じ事故が起きるかもしれないんですよ!
    したがって「そんな負荷でダウンしたルータって、どの製品?」というのが最初にすべき疑問だと思います。
    Itmeidia あたりには、この辺りを突っ込んで欲しいですね。

    それとNTTも局所性を持たせたネットワーク設計をしてれば、ここまでおおごとにならなかったのですが、これは2次的な問題です。
    • 単発の発生原因はネットワークのルーティング情報書き換えが出来なかった事
      該当ルータとの通信障害に限って言えばこれになるでしょう

      ただし拡大したのは影響範囲が全国に及ぶようにしてしまったネットワーク設計の問題では無いか
      と予想されていますね、内部の人しか本当のところは判らないでしょうが...

      障害現象を「NTT東日本のサービス地域のうち首都圏を除く全地域で障害が発生した」
      って言う件に関しては双方が複合しないと起きない現象でしょうから
      片方だけが今回の原因とは言えないでしょう

      両方やっちゃったって事ですな
      親コメント
      • ネットワーク設計の問題は、とりあえず NTT だけの問題です。
        しかし、ルータのファームウェアの問題は、全国、全世界の問題であり、
        ニュースとして後者の方が公共性が高いのです。
        マスコミには、公共性の高い活動が要求されるわけで、そこに突っ込まないのが、ものたりないのです。
    • >一般的に、プロトコルというのは、高負荷であろうとも、システム全体がハングしないように設計されてるはずです。

      そんな都合のいいプロトコルみたことない。

      プロトコルレベルで高負荷とか考えるもの?
      応答・無応答・遅延ぐらいしか考えてないんじゃないかな。

      #指摘のとおり高負荷時に規定外の動作をするのはバグ。
    • 高負荷の時はハロー以外のメッセージを無視するような実装だと、そのルータは「ダウン」しないかもしれませんが
      ルーティング・テーブルの整合性がとれず、変な方にパケットを転送してループになったりする危険がありませんか?

      ループを避けようとして、そのルータにはルーティング以外のパケットは流さないようにするというなら
      他のルータはやはりルーティング・テーブルを再計算しないといけないでしょうし。

      設計にも問題があるのかもしれませんが、ぎりぎりまで負荷のかかっているルータがどの程度あるのか
      把握して増強していなかった運用面の問題もあるかもしれませんね。
    • このルータってルーティングプロトコルはOSPFかなんかで動いていたのかな? OSPFだと1エリアの仲間(AS)のルータ全てが同じ情報を共有するから、規模の大きいネットワークなら一台が持つ経路情報も相当な大きさになるはず・・・。通常、これらの情報の更新はネットワークに変更があるたびに仲間全体で一気に行うこれをコンバージェンスと言う。 今回は一台の故障が引き金になって、そのルータが戻った途端、コンバージェンス、つまり全体にルート情報を回覧してしまったことが原因、だと思う このルート情報が他の機器の処理能力に耐え切れないものでダウンしてしまったみたい。 冗長や自己診断では防ぎれない予想外の事故でしょう・・・。 大規模なネットワークではルータそのものが受け取ったルート情報の負荷を計算して、手に余る様だったらリレーや更新をストップするような機能をつけるほかは・・・・。
    •  ん、Cisco Systemsの人?  そもそも新ファームウェアでは起こっていなかった問題。

未知のハックに一心不乱に取り組んだ結果、私は自然の法則を変えてしまった -- あるハッカー

処理中...