パスワードを忘れた? アカウント作成

au など KDDI 回線利用の通信に大規模障害」記事へのコメント

  • by Anonymous Coward

    機器の交換をしていたら不具合が起きて一部が不通になり、それが波及して全国的に繋がりにくくなったらしいけど、 1カ所ダメになるだけで全体に波及するほどぎりぎりで運用してるってこと?

    なんか携帯料金値下げからドコモ、auって立て続けに重大事故が起きてるような気がしてるんだけど、気のせい?

    • Re:安全マージン (スコア:5, 参考になる)

      by saratoga (23467) on 2022年07月03日 17時06分 (#4281799) 日記

      > 機器の交換をしていたら不具合が起きて一部が不通になり、それが波及して全国的に繋がりにくくなったらしいけど、
      原因が知りたくて、11時からの社長会見を少し見た。まだ全容解明にはいたってみたいだけど、どうやら3段階を経て復旧に手間取る大規模障害になったようだ。
      まず、定期メンテナンスの一環としてルータの交換作業。旧機種の新機種への置き換えではなく同機種の置き換え。ここで置き換え後に通信が止まったため急遽もとのルータに戻す。
      これでもとに戻ればよかったのだが、ルータが止まっていた間の音声通話のVoLTE交換機へのトラフィックが一気に流れ出してVoLTE交換機が輻輳状態に。
      このときどういうわけか VoLTE交換機と連携している加入者DBが整合が取れない状態に陥り、こちらの復旧に手間取る、という流れらしい。

      最初のきっかけはルータの交換で通信が止まったことで、こちらはルータのハード故障か設定ミスだろうけど、やっぱり問題は加入者DBを道連れにしたVoLTE交換機かな。
      オペレーションとしてはルータ切り戻しの際に、VoLTE交換機へのトラフィックをあらかじめ絞っておくべきかも。
      #詳しい人の解説希望。

      • Re:安全マージン (スコア:2, 参考になる)

        by 90 (35300) on 2022年07月03日 23時04分 (#4282027) 日記

        このVoLTE交換機の輻輳に伴い、加入者データベースに登録した位置情報をVoLTE交換機に反映できず、加入者データベースでデータの不一致が発生した。
        https://xtech.nikkei.com/atcl/nxt/news/18/13226/ [nikkei.com]

        ここの図 [yatebts.com]のMMEが"VoLTE交換機", HSSが"加入者データベース"かな。HLR/HSSはたぶん契約状態変更に応じて外部から書き込みが生じていて、MMEはキャッシュを持っていて、UE(利用者端末)は常にのぞみ号博多行きに乗車しながら位置情報を送ってきているので、図のS6aインターフェイスが詰まったりMMEクラスタの中で不一致が生じたりすると容易に解約済み番号とか未契約番号とか認証前状態の番号とかに対する更新とか競合する書き込みがかかって自動的に不整合を起こすのかな。HSSのDBがマスタになるはずなので単にMMEのコピーをぶっ飛ばして再起動すればいいような気もしますが、それはそれで時間がかかったり認証が殺到して死んだりするのかも。

        交換機がルータ交換で死んだ原因は書かれていませんが、""経路""と言っているのでこの前のCloudflareと同パターンの予感。

        • Re:安全マージン (スコア:4, 参考になる)

          by Anonymous Coward on 2022年07月04日 5時18分 (#4282089)

          あなた以前にも [srad.jp]デタラメ書いて訂正されてましたよね。
          携帯電話網の基本的なことが分かってないのに知ったかぶりするのやめた方がいいんじゃないですか?

          ここの図 [yatebts.com] [yatebts.com]のMMEが"VoLTE交換機", HSSが"加入者データベース"かな。

          HSSが加入者データベースなのは合ってますが、MMEがVoLTE交換機なわけがありません。MMEはMMEです。
          MMEはキャッシュを持ちません。HSSのコピーを持つノードはVLRやI/S-CSCFです。
          引用の図はVoLTEを考慮していないのでIMS関係のノードが描かれておらず今回の事故を説明するには全く使えません。
          ドコモテクニカルジャーナル [docomo.ne.jp]やGSMAの資料 [gsma.com]などを参照してください。
          KDDIの言う「VoLTE交換機(VoPGW)」という用語が何を指すのか明らかではありませんが、標準アーキテクチャで言うところのI/S-CSCF、ドコモ網で言うところのVGN (VoLTE Gateway Node)に相当するものと考えられます。

          • by 90 (35300) on 2022年07月04日 10時32分 (#4282163) 日記

            ためになるなあ。携帯網は自分で動かせてなくて中々知識が付かないんですよね。

            • by Anonymous Coward

              twitter上の解説図で面白い物がありました。
              輻輳を処理しようと一生懸命頑張った君に内蔵されているHDDのスピンドルモーターがオーバーレブしてダウンしたとのことです。

              • by 90 (35300) on 2022年07月04日 18時47分 (#4282615) 日記

                HDDのスピンドルモーターはシンクロナスモータなので、回転数は供給電圧や電流に関わらずモータドライバSoCの制御に依存します。オーバーレブするにはSoCのクロックが狂っている必要がありますが、難しいんじゃないかな。HDDを使うDBが今時どれだけあるのか、ということを脇へ置いたとしても……

              • by Anonymous Coward

                > 一生懸命頑張った君に内蔵されているHDD
                内臓HDD?

            • by Anonymous Coward

              > ためになるなあ。携帯網は自分で動かせてなくて中々知識が付かないんですよね。

              やる気とスキルがあればフリーのシミュレーターあるでしょ。
              free5gcでもopen5gsでも。

              やる気もスキルもないなら黙ってろ。

          • by Anonymous Coward

            最初VoLTE交換機? と思ったんですよね。PGWを指してるのか? とか
            記者会見等ではコア網についての知識皆無な人が相手になるので取り敢えず交換機という言葉を使ったんでしょう
            最終的な報告書を読める時まで考えないことにしました
            ところで、レジストレーショントラフィック輻輳ならアクセス系で適切に規制をかければ収束させるのは難しくないのになんであんなに時間がかかったんでしょうねぇ

      • by Anonymous Coward

        > 同機種の置き換え。ここで置き換え後に通信が止まったため急遽もとのルータに戻す。

        そしてドリフの盆回りのBGMが鳴り出す...
         
        やはり「壊れていないものは直すな」ってのは至言だなと。
        まあそれで済まないのもあるからこうなったんだろうけど。

        • by Anonymous Coward on 2022年07月03日 21時34分 (#4281977)

          > 「壊れていないものは直すな」
          壊れる前に交換してるから運用出来てるんですよ。
          保守切れたハードが故障して同じような事態になったらまた文句言うんでしょうけどね。

          • by Anonymous Coward

            壊れる前に交換してないから落ちたのがみずほ。
            盛大に文句言われてましたな。

      • by Anonymous Coward

        >加入者DBを道連れにしたVoLTE交換機
        輻輳状態ならないと起きないバグだと、中々検証難しそうですね。

      • 一番意味がわからんのは
        「このときどういうわけか VoLTE交換機と連携している加入者DBが整合が取れない状態に陥り」
        のトコだよな。本当にどういうわけでそんな事になるのか。
        負荷が高まった所で、そんなんでいちいち不整合出してたら使い物にならん訳で……
        ニュース記事だと不整合の下りがカットされてるのも多いし何が何やら。

        人によっては攻撃受けて改竄されたのを隠してると考える人までいる始末。

        • by Anonymous Coward

          連携といってもHSSとI/S-CSCFでリアルタイムに同期を取っているという意味ではなく、非同期で都度HSSから加入者情報をI/S-CSCFにダウンロードする、みたいなことをやっているんじゃないでしょうか
          つまり普段からある程度の不整合が出るのは織り込み済みで、不整合が出たことが問題なのではなく、Cxインターフェースの輻輳で不整合の解消ができないというのが問題なわけですね

          • by Anonymous Coward

            「どういうわけか」とまで敢えて言ってるわけだから、そういう仕様上不可避みたいな話ではないんじゃないかなぁ。

海軍に入るくらいなら海賊になった方がいい -- Steven Paul Jobs

処理中...