パスワードを忘れた? アカウント作成
1431089 story
携帯通信

東京都の一部でFOMAに通信障害発生 60

ストーリー by hylom
NTTだから安心、はもう神話? 部門より
headless 曰く、

NTTドコモは、東京都の一部地域で25日午前8時26分ごろからFOMAで通信障害が発生していると発表した(NTTドコモ — 通信障害のお知らせYOMIURI ONLINEの記事)。通信障害は午後1時08分に復旧したとのこと。

影響を受けたのは葛飾、江戸川、江東、港、新宿、千代田、中央、品川、文京、墨田、大田、目黒、渋谷、世田谷各区の一部地域。FOMAの音声・パケット通信サービスが利用しづらい状況になっていたという。読売新聞の記事によると、障害の起きた地域では「圏外」の表示が出て通話もメールも使えない状態となり、「圏外」表示が消えた後でも電話はつながらなかったそうだ。ドコモの通信設備の利用が増加したことが原因とされている。

一部報道では原因として山手線が停止した影響で通信量が急増したためではという話もあったが、日経ITproによると冗長化構成を取っているパケット交換機の故障により稼働している側にトラフィックが集中、これにより問題が発生したとのこと。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by Anonymous Coward on 2012年01月26日 0時37分 (#2087525)

    今回障害の対象となった地域をカバーするGGSNx2の片系が落ち、
    落ちた側のGGSNに繋がってた端末はいっせいに位置登録のやり直し。

    ここで、先日のSPモードメールの異常配送対策で
    HLRになんらかの対策が組み込まれており、
    それが予想以上の高負荷となってHLRへの位置登録そのものが滞った
    =位置登録が通らず端末は圏外表示などに陥った
    というように見えます。

    上記の場合、まず生き残ったGGSNに繋がって端末はその時点では無事。
    ただし障害発生後のHLR高負荷状態の間に位置登録をしなおすようなこと
    (かなりの距離を移動する、一度圏外になってから圏内に復帰する、など)をすると、
    高負荷に巻き込まれることになります。

    山手線の問題については、本来より遅延していたことにより
    東京都心への人間(&端末)の移動が平常時よりも遅くなり、
    上記位置登録に伴うHLRへの負荷も平常時より遅れて発生、
    そのため上記HLRの高負荷状態の間に、さらに平常時よりも多くの人間(&端末)が流入してくる、
    という悪影響を積みましたのではないですかね。

  • by Anonymous Coward on 2012年01月25日 18時47分 (#2087368)

    >稼働している側にトラフィックが集中、これにより問題が発生したとのこと。

    二系統あって、一方が故障すると高負荷になりもう一方での運用に問題が出ます。
    ……ってのを冗長化と呼ぶのはなんか違うんじゃないかと思ってしまうんですが、どうなんでしょうか。

  • by Anonymous Coward on 2012年01月25日 18時51分 (#2087371)

    http://p.twipple.jp/9r269 [twipple.jp] より

    本日、朝方発生しましたJRの運転見合わせ等により、一時的に電話(通話・インターネット)の利用が増え、回線が繋がりにくい状況が発生しております。

    • by Oh-MissSpell (37716) on 2012年01月25日 19時26分 (#2087390) 日記

      本日、朝方発生しましたJRの運転見合わせ”等”により

      親コメント
    • by Anonymous Coward

      >JRの運転見合わせ等

      ハッキリ言えます。これは嘘ですね。

      JR山手線新宿大ガードでの火災=09:05~
      ドコモFOMAの通信障害=08:26~

      「太陽フレアのせい」って言ったほうがまだマシだったように思える。

      • 08:26~ パケット交換機が故障、
        対処している途中で、
        09:05~ JRの運転見合わせで、トラフィックが集中。

        親コメント
        • by maia (16220) on 2012年01月25日 21時55分 (#2087463) 日記

          産経の記事 [msn.com]

          同日未明、都内でデータ振り分けを行う「パケット交換機」を新型に交換。同社はこの不調が原因とみており、交換機を元の機械に戻したところ復旧したという。

          対処として「交換機を稼動」とあったのは、元の交換機を再稼動させたという事か。

          ケータイWatchの記事 [impress.co.jp]

          本来であればパケット交換器の影響を受けない音声通話が利用しづらかった原因についても調査中

          いずれ説明があるだろうけど。

          それにしても都心で午前8時過ぎから午後1時過ぎというのは影響が大きすぎるのでは。震災の事を考えても、複数の通信会社を使うべきなのかな。

          親コメント
          • 新型パケット交換機の設計ミスのようですね。

            未明より新型パケット交換機への切替を実施/8時26分頃からトラフィックの上昇に伴い、新型パケット交換機の動作が不安定な状態となり/9時頃から、トラフィックがさらに上昇(中略)輻輳状態が発生/頻繁に「制御信号」を必要とするスマートフォンのアプリケーション(VoIP、チャット等)が急激に普及したことに伴い、ネットワーク上の制御信号が増加しており、そのような状況の中で、新型パケット交換機への切り替えを実施したところ、制御信号がパケット交換機の処理能力をオーバーフローした(プレスリリース [nttdocomo.co.jp])

            まだ分からない点がある。制御信号の通信量の見積もりを間違えた? というのは不可解。そのための新型導入のはずなのに。

            親コメント
            • #大事なことなので、ケータイWatchの記事 [impress.co.jp]を元にまとめてみた。

              1)従来のパケット交換機(全台数の合計)の処理能力は、同時接続数が88万台、処理できる1時間あたりの信号量は2750万だった。

              2)新型機(全台数の合計)の処理能力は、同時接続数が180万台、処理できる1時間あたりの信号量は1410万。

              3)従来は、信号量の処理能力が余っていると考えて新型機の仕様を決定(1時間あたりの信号量は1200万と想定)していたが、実際には1650万だったので、たちまちパンクした。同時接続数は想定通り71万台だったが...

              #仕様決定が1年前とはいえ、信号量の現状が把握できていなかったというのは、技術企業?として、ちょっとおかしい。

              親コメント
          • by Anonymous Coward on 2012年01月25日 23時45分 (#2087509)

            数時間ぐらい止まっても動じないスルーカを身につけるべきですよ。
            これから、電力の供給も不安定になっていきますしね。

            親コメント
            • by Anonymous Coward

              4年以内の地面の安定性も30%未満らしいじゃないか

              すべてが不安定前提で行きましょう

      • by Anonymous Coward
        ハッキリ言えるんなら、ID晒せば?
  • by i_i (22332) on 2012年01月25日 23時51分 (#2087510) 日記

    普通の主要路線だと都心~近郊~郊外と路線が伸びている(=輸送障害による沿線トラヒックの急増も複数の交換局に分散される)のに対して、
    山手線は東京23区の中心寄りという比較的狭い範囲を一周しているために、特定の1~2ヶ所の交換局に沿線全体の負荷が集中したのだろうか。

  • by Anonymous Coward on 2012年01月25日 18時53分 (#2087373)

    > 冗長化構成を取っているパケット交換機の故障により稼働している側にトラフィックが集中、これにより問題が発生した

    冗長化構成って、冗長化している部分の一部が壊れても、全体に影響がないようにしてある構成を言うと思っていたんだけど
    それは思い違い?それとも、完全に冗長化構成の設計ミス?もしくは想定外なほど一気に大量に壊れた?

    • by Anonymous Coward on 2012年01月25日 18時57分 (#2087375)

      設計当初はN+1だったんでしょう。

      ユーザ増加による負荷の変化を甘く見てて、気づいたらN+0.3とかになってた

      親コメント
      • by deepsix (2374) on 2012年01月26日 1時58分 (#2087538) 日記
        ITProの記事を読むとN+1の構成になっているとは読み取れないんですが。「稼働している側」って、あんた。。。

        N+1の冗長化構成をとっていたにもかかわらず、1台(系統?)壊れただけでサービス障害が発生するのは明らかに設計ミスだと思います。が、それはキャパシティプランニングの問題ではなく、冗長化構成の仕組みに問題があります。実は障害は二つ発生しており、1.機器が故障した、2.正しく冗長化構成が発動せず待機機器が稼働しなかった、と言うことになります。そもそも気づいたらN+0.3になっているような構成ってどういうつくりなんだろう?当初N+1の冗長化構成だったのをもったいないからNの負荷分散にしたのなら理解できるけれど。というか昨今のトラフィック増加にともなって、冗長化やめて負荷分散にしてしまえってdocomoが思っているのであればかなりまずい状況かと。

        で、最初の質問に戻ると、冗長化構成としてはn重化(おそらくn=2かな?)の縮退冗長の設計になっていたため、通信しにくくなるのはシナリオどおりだったんじゃないかな?と想像する。なので、サービスへの影響がどのレベルまで許容できるかを決めたかで、サービス提供のされかたが変わってきますから、冗長化だからと言って理論上サービス障害が発生しない訳ではないと。

        ただ、会社が千代田区にあるのですが、午前中はまったくつながらず、壊れたんじゃないかとあせりました。気づいたのが9時頃で、まわりのdocomoユーザは使えるとかいわれ。docomoのサイトには障害の一報もなく。自分の携帯だけを考えるならば、完全に止まっていたので冗長化してるのにひどいんじゃない?とは思いますが。

        余談だが試しに嫁さんに電話したら、こちらはコールが聞こえないのにどういうわけか相手には2コールはできてそこで断。あまりにも短いコールだったのでビックリしてかけてくれたらしいんだが「電源が切れているか電波が届かない」と言われたそうな。嫁さん曰く「なんか不思議と思ったんよ」と、そこは心配してくれてもいいんじゃない?という二次災害に見舞われています・・・。
        --
        職業としてのプログラマ
        親コメント
        • by Anonymous Coward

          N+1 → Standby専用機があるはずだ という発想かな?
          5台分のキャパシティが必要だから、6台分で負荷分散&冗長化というのも、立派なN+1ですよ。

          待機系を無くすことで、万一、想定キャパシティ(5台)を超えた場合でも、一時的に凌げるという利点があります。

          • by Anonymous Coward

            "N+1" において "N=0" や "N=-1" という場合はありやなきや

            • by Anonymous Coward

              Nは自然数(1, 2, 3, …)ですがね。
              日本なら義務教育である中等教育で習うハズ。

              #自然数に0を含めるかという数論的議論はある。

      • by Anonymous Coward

        スマホが増えて通信量が増大し、キャリアが死にそうってのも
        ある意味納得ですね。

        こういった設備の更新もおっつかないんでしょう。

        • by Anonymous Coward on 2012年01月25日 23時20分 (#2087496)
          設備が足りないなら、現ユーザーへのサービス提供は続けるとしても、新ユーザーを取らなければいいのに。
          これ以上乗ったら沈没のわかってて乗船チケット売ってるの?

          設備は足りない、けど新ユーザーへインセンティブだす、しかも24時間定額も始める。
          サービスの安定提供の責任感がないんでしょうか。
          親コメント
          • by yohata (11299) on 2012年01月26日 4時12分 (#2087548)

            しかも、ほかの業種ではあり得ない利益を計上しておきながら

            「客の利用料が増えているので定額制やめます。悪いのは客であって、有り余る利益を設備投資に回そうとしない弊社ではありません」

            ……こんなですからねえ。
            昨日はauの「通知エリアに強制広告配信」が話題になったし、ソフトバンクは最初から「呼吸をするように嘘とハッタリ」の某国商売だし。

            携帯電話キャリアは好き勝手やりたいんだったら、公共性を求められるはずの許認可事業がら撤退して、思う存分やればいいのに。

            親コメント
          • by Anonymous Coward

            責任感があるから新型の交換機に替えてる最中だったんでしょうに・・・

            それで責任感無いって言われたら他のキャリアも似たようなものでしょうよ。

            • by Anonymous Coward
              結果より努力したことが大事ですよね
        • by Anonymous Coward

          キャリアですら、IT部門の予算取りは弱いからね。。
          根拠なしに前年度○%改善とか前提で予算で決定されるから、結局リスク分はおなざりになる。

    • by i_i (22332) on 2012年01月26日 0時25分 (#2087522) 日記

      携帯電話網のキャパシティ設計って、想定される最悪条件まではカバーしないんじゃなかったっけ。
      片系故障がなくても東京ビッグサイトの回線輻輳(これは帯域の問題もあるか)は夏冬の風物詩だし、震災や台風直撃だとあっさり輻輳するし。

      親コメント
    • by Anonymous Coward

      当初は「冗長化」だったのが、いつの間にか全部稼動してやっと、になってたのでしょう。
      よくあることですw
      生命にかかわらなければ「w」で済みますけどね。

      • by Anonymous Coward

        危篤の連絡ができなかったとかありそう

        • by Anonymous Coward

          110番や119番ができずにトラブルにまきこまれるとか?

          今回の障害規模・時間・場所では、そんな問題になる可能性は極めて低そうだけど

  • by Anonymous Coward on 2012年01月25日 21時44分 (#2087455)

    日経ITProの記事 [nikkeibp.co.jp]を見る限り「テストした新型パケット交換機で本格運用したとたんに問題が発生した」と読めたのですが、設計とかチェックプロセスに問題があったと考えるのは短絡的発想かなぁ?

    日経コミュニケーションあたりで特集記事を組んでほしいと思う。

    あと、去年末から受信急増しているspamも何とかして欲しい。

  • by Anonymous Coward on 2012年01月25日 22時18分 (#2087471)

    と〜っくの昔に乗り換えてますのでカンケーなしでぇ〜す。

typodupeerror

UNIXはただ死んだだけでなく、本当にひどい臭いを放ち始めている -- あるソフトウェアエンジニア

読み込み中...