アカウント名:
パスワード:
機器の交換をしていたら不具合が起きて一部が不通になり、それが波及して全国的に繋がりにくくなったらしいけど、 1カ所ダメになるだけで全体に波及するほどぎりぎりで運用してるってこと?
なんか携帯料金値下げからドコモ、auって立て続けに重大事故が起きてるような気がしてるんだけど、気のせい?
> 機器の交換をしていたら不具合が起きて一部が不通になり、それが波及して全国的に繋がりにくくなったらしいけど、原因が知りたくて、11時からの社長会見を少し見た。まだ全容解明にはいたってみたいだけど、どうやら3段階を経て復旧に手間取る大規模障害になったようだ。まず、定期メンテナンスの一環としてルータの交換作業。旧機種の新機種への置き換えではなく同機種の置き換え。ここで置き換え後に通信が止まったため急遽もとのルータに戻す。これでもとに戻ればよかったのだが、ルータが止まっていた間の音声通話のVoLTE交換機へのトラフィックが一気に流れ出してVoLTE交換機が輻輳状態に。このときどういうわけか VoLTE交換機と連携している加入者DBが整合が取れない状態に陥り、こちらの復旧に手間取る、という流れらしい。
最初のきっかけはルータの交換で通信が止まったことで、こちらはルータのハード故障か設定ミスだろうけど、やっぱり問題は加入者DBを道連れにしたVoLTE交換機かな。オペレーションとしてはルータ切り戻しの際に、VoLTE交換機へのトラフィックをあらかじめ絞っておくべきかも。#詳しい人の解説希望。
このVoLTE交換機の輻輳に伴い、加入者データベースに登録した位置情報をVoLTE交換機に反映できず、加入者データベースでデータの不一致が発生した。https://xtech.nikkei.com/atcl/nxt/news/18/13226/ [nikkei.com]
ここの図 [yatebts.com]のMMEが"VoLTE交換機", HSSが"加入者データベース"かな。HLR/HSSはたぶん契約状態変更に応じて外部から書き込みが生じていて、MMEはキャッシュを持っていて、UE(利用者端末)は常にのぞみ号博多行きに乗車しながら位置情報を送ってきているので、図のS6aインターフェイスが詰まったりMMEクラスタの中で不一致が生じたりすると容易に解約済み番号とか未契約番号とか認証前状態の番号とかに対する更新とか競合する書き込みがかかって自動的に不整合を起こすのかな。HSSのDBがマスタになるはずなので単にMMEのコピーをぶっ飛ばして再起動すればいいような気もしますが、それはそれで時間がかかったり認証が殺到して死んだりするのかも。
交換機がルータ交換で死んだ原因は書かれていませんが、""経路""と言っているのでこの前のCloudflareと同パターンの予感。
あなた以前にも [srad.jp]デタラメ書いて訂正されてましたよね。携帯電話網の基本的なことが分かってないのに知ったかぶりするのやめた方がいいんじゃないですか?
ここの図 [yatebts.com] [yatebts.com]のMMEが"VoLTE交換機", HSSが"加入者データベース"かな。
HSSが加入者データベースなのは合ってますが、MMEがVoLTE交換機なわけがありません。MMEはMMEです。MMEはキャッシュを持ちません。HSSのコピーを持つノードはVLRやI/S-CSCFです。引用の図はVoLTEを考慮していないのでIMS関係のノードが描かれておらず今回の事故を説明するには全く使えません。ドコモテクニカルジャーナル [docomo.ne.jp]やGSMAの資料 [gsma.com]などを参照してください。KDDIの言う「VoLTE交換機(VoPGW)」という用語が何を指すのか明らかではありませんが、標準アーキテクチャで言うところのI/S-CSCF、ドコモ網で言うところのVGN (VoLTE Gateway Node)に相当するものと考えられます。
ためになるなあ。携帯網は自分で動かせてなくて中々知識が付かないんですよね。
twitter上の解説図で面白い物がありました。輻輳を処理しようと一生懸命頑張った君に内蔵されているHDDのスピンドルモーターがオーバーレブしてダウンしたとのことです。
HDDのスピンドルモーターはシンクロナスモータなので、回転数は供給電圧や電流に関わらずモータドライバSoCの制御に依存します。オーバーレブするにはSoCのクロックが狂っている必要がありますが、難しいんじゃないかな。HDDを使うDBが今時どれだけあるのか、ということを脇へ置いたとしても……
> 一生懸命頑張った君に内蔵されているHDD内臓HDD?
> ためになるなあ。携帯網は自分で動かせてなくて中々知識が付かないんですよね。
やる気とスキルがあればフリーのシミュレーターあるでしょ。free5gcでもopen5gsでも。
やる気もスキルもないなら黙ってろ。
最初VoLTE交換機? と思ったんですよね。PGWを指してるのか? とか記者会見等ではコア網についての知識皆無な人が相手になるので取り敢えず交換機という言葉を使ったんでしょう最終的な報告書を読める時まで考えないことにしましたところで、レジストレーショントラフィック輻輳ならアクセス系で適切に規制をかければ収束させるのは難しくないのになんであんなに時間がかかったんでしょうねぇ
> 同機種の置き換え。ここで置き換え後に通信が止まったため急遽もとのルータに戻す。
そしてドリフの盆回りのBGMが鳴り出す... やはり「壊れていないものは直すな」ってのは至言だなと。まあそれで済まないのもあるからこうなったんだろうけど。
> 「壊れていないものは直すな」壊れる前に交換してるから運用出来てるんですよ。保守切れたハードが故障して同じような事態になったらまた文句言うんでしょうけどね。
壊れる前に交換してないから落ちたのがみずほ。盛大に文句言われてましたな。
>加入者DBを道連れにしたVoLTE交換機輻輳状態ならないと起きないバグだと、中々検証難しそうですね。
一番意味がわからんのは「このときどういうわけか VoLTE交換機と連携している加入者DBが整合が取れない状態に陥り」のトコだよな。本当にどういうわけでそんな事になるのか。負荷が高まった所で、そんなんでいちいち不整合出してたら使い物にならん訳で……ニュース記事だと不整合の下りがカットされてるのも多いし何が何やら。
人によっては攻撃受けて改竄されたのを隠してると考える人までいる始末。
連携といってもHSSとI/S-CSCFでリアルタイムに同期を取っているという意味ではなく、非同期で都度HSSから加入者情報をI/S-CSCFにダウンロードする、みたいなことをやっているんじゃないでしょうかつまり普段からある程度の不整合が出るのは織り込み済みで、不整合が出たことが問題なのではなく、Cxインターフェースの輻輳で不整合の解消ができないというのが問題なわけですね
「どういうわけか」とまで敢えて言ってるわけだから、そういう仕様上不可避みたいな話ではないんじゃないかなぁ。
> 機器の交換をしていたら不具合が起きて一部が不通になり、それが波及して全国的に繋がりにくくなったらしいけど、 1カ所ダメになるだけで全体に波及するほどぎりぎりで運用してるってこと?
まあ結果的には安全マージンが足りなかったんだけど、そもそも全国3000万回線を抱えるネットワークでどの程度安全マージンを取ればいいのかなんて事前に分かんないんだよな。似たような失敗の経験はどの通信事業者にもあると思う。料金値下げとか関係なく、昔から知られた携帯電話網の構造的な弱点なので、半ば諦めモード。
わからない?数学的に計算すれば良いだけでは?
すべての前提条件がわかってる神様がいるならできるかもね。
無限にコストかけていいならそうして算出した値を基準に対処できるが、これはそんな話ではないんだよ。
横から失礼。自分素人なんですが、本件は無限にコストと時間をかければどうにかなる問題なんでしょうか。それとも、不確定性原理とかカオスとかによる、超能力者や神様案件なんでしょうか。
許容する障害レベルを設定して見積もれば、無限にはなりません。
> 数学的に計算すれば良いだけでは? 「完全に理解」してる人の感想ですねそれ。
まあ想定外の単一障害点があったんでしょうな。なぜか意味もなくほとんどのトラフィックが通っちゃう経路とか。 料金値下げの影響よりは5G導入で失敗したほうが確率的に高い。料金値下げの影響は多分これから出る。
ぎりぎりで運用してるってこと?
VoLTE交換機の再接続要求などは「少なくとも通常の2倍以上」だったそうです。https://xtech.nikkei.com/atcl/nxt/news/18/13226/ [nikkei.com]
通常の2倍に耐えられないとはマージンは小さく、ギリギリだったといえますね。通常の3倍に耐えられなきゃ。
じゃないとアムロのあのセリフも出てこないし、シャアもあのスピードで動けない
シャアはNT勘で回避運動を減らして3倍の時間の推進剤を吹かしていただけだから。性能が一緒でも、空気抵抗や重力損失がなければ、それで3倍の速度が出るから。
さりげなくデマ流して他社下げしても、KDDIの信頼は回復しませんよ
ソフトバンクも10年選手だし普段から色々やらかすみたいなことは無くなったよ今アツいのは楽天モバイル
ハイハイ。ハゲヨリマシ。10回唱えましょう。心の平静は取り戻せましたか?
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
目玉の数さえ十分あれば、どんなバグも深刻ではない -- Eric Raymond
安全マージン (スコア:1)
機器の交換をしていたら不具合が起きて一部が不通になり、それが波及して全国的に繋がりにくくなったらしいけど、 1カ所ダメになるだけで全体に波及するほどぎりぎりで運用してるってこと?
なんか携帯料金値下げからドコモ、auって立て続けに重大事故が起きてるような気がしてるんだけど、気のせい?
Re:安全マージン (スコア:5, 参考になる)
> 機器の交換をしていたら不具合が起きて一部が不通になり、それが波及して全国的に繋がりにくくなったらしいけど、
原因が知りたくて、11時からの社長会見を少し見た。まだ全容解明にはいたってみたいだけど、どうやら3段階を経て復旧に手間取る大規模障害になったようだ。
まず、定期メンテナンスの一環としてルータの交換作業。旧機種の新機種への置き換えではなく同機種の置き換え。ここで置き換え後に通信が止まったため急遽もとのルータに戻す。
これでもとに戻ればよかったのだが、ルータが止まっていた間の音声通話のVoLTE交換機へのトラフィックが一気に流れ出してVoLTE交換機が輻輳状態に。
このときどういうわけか VoLTE交換機と連携している加入者DBが整合が取れない状態に陥り、こちらの復旧に手間取る、という流れらしい。
最初のきっかけはルータの交換で通信が止まったことで、こちらはルータのハード故障か設定ミスだろうけど、やっぱり問題は加入者DBを道連れにしたVoLTE交換機かな。
オペレーションとしてはルータ切り戻しの際に、VoLTE交換機へのトラフィックをあらかじめ絞っておくべきかも。
#詳しい人の解説希望。
Re:安全マージン (スコア:2, 参考になる)
このVoLTE交換機の輻輳に伴い、加入者データベースに登録した位置情報をVoLTE交換機に反映できず、加入者データベースでデータの不一致が発生した。
https://xtech.nikkei.com/atcl/nxt/news/18/13226/ [nikkei.com]
ここの図 [yatebts.com]のMMEが"VoLTE交換機", HSSが"加入者データベース"かな。HLR/HSSはたぶん契約状態変更に応じて外部から書き込みが生じていて、MMEはキャッシュを持っていて、UE(利用者端末)は常にのぞみ号博多行きに乗車しながら位置情報を送ってきているので、図のS6aインターフェイスが詰まったりMMEクラスタの中で不一致が生じたりすると容易に解約済み番号とか未契約番号とか認証前状態の番号とかに対する更新とか競合する書き込みがかかって自動的に不整合を起こすのかな。HSSのDBがマスタになるはずなので単にMMEのコピーをぶっ飛ばして再起動すればいいような気もしますが、それはそれで時間がかかったり認証が殺到して死んだりするのかも。
交換機がルータ交換で死んだ原因は書かれていませんが、""経路""と言っているのでこの前のCloudflareと同パターンの予感。
Re:安全マージン (スコア:4, 参考になる)
あなた以前にも [srad.jp]デタラメ書いて訂正されてましたよね。
携帯電話網の基本的なことが分かってないのに知ったかぶりするのやめた方がいいんじゃないですか?
HSSが加入者データベースなのは合ってますが、MMEがVoLTE交換機なわけがありません。MMEはMMEです。
MMEはキャッシュを持ちません。HSSのコピーを持つノードはVLRやI/S-CSCFです。
引用の図はVoLTEを考慮していないのでIMS関係のノードが描かれておらず今回の事故を説明するには全く使えません。
ドコモテクニカルジャーナル [docomo.ne.jp]やGSMAの資料 [gsma.com]などを参照してください。
KDDIの言う「VoLTE交換機(VoPGW)」という用語が何を指すのか明らかではありませんが、標準アーキテクチャで言うところのI/S-CSCF、ドコモ網で言うところのVGN (VoLTE Gateway Node)に相当するものと考えられます。
Re:安全マージン (スコア:1)
ためになるなあ。携帯網は自分で動かせてなくて中々知識が付かないんですよね。
Re: (スコア:0)
twitter上の解説図で面白い物がありました。
輻輳を処理しようと一生懸命頑張った君に内蔵されているHDDのスピンドルモーターがオーバーレブしてダウンしたとのことです。
Re:安全マージン (スコア:2)
HDDのスピンドルモーターはシンクロナスモータなので、回転数は供給電圧や電流に関わらずモータドライバSoCの制御に依存します。オーバーレブするにはSoCのクロックが狂っている必要がありますが、難しいんじゃないかな。HDDを使うDBが今時どれだけあるのか、ということを脇へ置いたとしても……
Re: (スコア:0)
> 一生懸命頑張った君に内蔵されているHDD
内臓HDD?
Re: (スコア:0)
> ためになるなあ。携帯網は自分で動かせてなくて中々知識が付かないんですよね。
やる気とスキルがあればフリーのシミュレーターあるでしょ。
free5gcでもopen5gsでも。
やる気もスキルもないなら黙ってろ。
Re: (スコア:0)
最初VoLTE交換機? と思ったんですよね。PGWを指してるのか? とか
記者会見等ではコア網についての知識皆無な人が相手になるので取り敢えず交換機という言葉を使ったんでしょう
最終的な報告書を読める時まで考えないことにしました
ところで、レジストレーショントラフィック輻輳ならアクセス系で適切に規制をかければ収束させるのは難しくないのになんであんなに時間がかかったんでしょうねぇ
Re: (スコア:0)
> 同機種の置き換え。ここで置き換え後に通信が止まったため急遽もとのルータに戻す。
そしてドリフの盆回りのBGMが鳴り出す...
やはり「壊れていないものは直すな」ってのは至言だなと。
まあそれで済まないのもあるからこうなったんだろうけど。
Re:安全マージン (スコア:1)
> 「壊れていないものは直すな」
壊れる前に交換してるから運用出来てるんですよ。
保守切れたハードが故障して同じような事態になったらまた文句言うんでしょうけどね。
Re: (スコア:0)
壊れる前に交換してないから落ちたのがみずほ。
盛大に文句言われてましたな。
Re: (スコア:0)
>加入者DBを道連れにしたVoLTE交換機
輻輳状態ならないと起きないバグだと、中々検証難しそうですね。
本当に「どういうわけ」なんだコレ (スコア:0)
一番意味がわからんのは
「このときどういうわけか VoLTE交換機と連携している加入者DBが整合が取れない状態に陥り」
のトコだよな。本当にどういうわけでそんな事になるのか。
負荷が高まった所で、そんなんでいちいち不整合出してたら使い物にならん訳で……
ニュース記事だと不整合の下りがカットされてるのも多いし何が何やら。
人によっては攻撃受けて改竄されたのを隠してると考える人までいる始末。
Re: (スコア:0)
連携といってもHSSとI/S-CSCFでリアルタイムに同期を取っているという意味ではなく、非同期で都度HSSから加入者情報をI/S-CSCFにダウンロードする、みたいなことをやっているんじゃないでしょうか
つまり普段からある程度の不整合が出るのは織り込み済みで、不整合が出たことが問題なのではなく、Cxインターフェースの輻輳で不整合の解消ができないというのが問題なわけですね
Re: (スコア:0)
「どういうわけか」とまで敢えて言ってるわけだから、そういう仕様上不可避みたいな話ではないんじゃないかなぁ。
Re:安全マージン (スコア:1)
> 機器の交換をしていたら不具合が起きて一部が不通になり、それが波及して全国的に繋がりにくくなったらしいけど、 1カ所ダメになるだけで全体に波及するほどぎりぎりで運用してるってこと?
まあ結果的には安全マージンが足りなかったんだけど、そもそも全国3000万回線を抱えるネットワークでどの程度安全マージンを取ればいいのかなんて事前に分かんないんだよな。
似たような失敗の経験はどの通信事業者にもあると思う。料金値下げとか関係なく、昔から知られた携帯電話網の構造的な弱点なので、半ば諦めモード。
Re: (スコア:0)
わからない?
数学的に計算すれば良いだけでは?
Re: (スコア:0)
すべての前提条件がわかってる神様がいるならできるかもね。
Re: (スコア:0)
無限にコストかけていいならそうして算出した値を基準に対処できるが、
これはそんな話ではないんだよ。
Re: (スコア:0)
横から失礼。
自分素人なんですが、本件は無限にコストと時間をかければどうにかなる問題なんでしょうか。
それとも、不確定性原理とかカオスとかによる、超能力者や神様案件なんでしょうか。
Re: (スコア:0)
許容する障害レベルを設定して見積もれば、無限にはなりません。
Re: (スコア:0)
> 数学的に計算すれば良いだけでは?
「完全に理解」してる人の感想ですねそれ。
Re: (スコア:0)
まあ想定外の単一障害点があったんでしょうな。なぜか意味もなくほとんどのトラフィックが通っちゃう経路とか。 料金値下げの影響よりは5G導入で失敗したほうが確率的に高い。料金値下げの影響は多分これから出る。
Re: (スコア:0)
ぎりぎりで運用してるってこと?
VoLTE交換機の再接続要求などは「少なくとも通常の2倍以上」だったそうです。
https://xtech.nikkei.com/atcl/nxt/news/18/13226/ [nikkei.com]
Re: (スコア:0)
通常の2倍に耐えられないとはマージンは小さく、ギリギリだったといえますね。
通常の3倍に耐えられなきゃ。
Re: (スコア:0)
じゃないとアムロのあのセリフも出てこないし、シャアもあのスピードで動けない
Re: (スコア:0)
シャアはNT勘で回避運動を減らして3倍の時間の推進剤を吹かしていただけだから。
性能が一緒でも、空気抵抗や重力損失がなければ、それで3倍の速度が出るから。
Re: (スコア:0)
性能は一緒でも3倍の時間加速すればいいだけ(性能1.3倍ならその分加速時間が短くてすむ)
Re: (スコア:0)
さりげなくデマ流して他社下げしても、KDDIの信頼は回復しませんよ
Re: (スコア:0)
ソフトバンクも10年選手だし普段から色々やらかすみたいなことは無くなったよ
今アツいのは楽天モバイル
Re: (スコア:0)
ハイハイ。
ハゲヨリマシ。
10回唱えましょう。心の平静は取り戻せましたか?