JR東の新幹線運行トラブル、管理システムの仕様を超えるダイヤ変更が原因 154
タレコミ by cvmonto
cvmonto 曰く、
日本経済新聞の記事によれば、1月17日朝に東北、上越など5つの新幹線が計139本運休・遅延したJR東日本の運行システムトラブルの件について、新幹線管理全体を担うシステム「COSMOS」において、システムの容量を超える数のダイヤ変更が入力されたことで、東京の運行本部にあるPC22台全てで、各駅の到着時刻や引き込む路線を示すデータがついたり消えたりする異常が起きたために運行を中断したことが原因だと発表されたとのことである。
そもそものCOSMOSへのシステム容量を超えるダイヤ変更の入力については、直前にJR東管内の2つの駅で降雪のためポイントが切り替わらない別の問題が起きたために、一時的に大量のダイヤ変更処理が必要になったことで入力されたとのことである。 同じ件について、朝日新聞では、JRと共同開発した日立製作所などと行った調査でシステム自体には問題がないことを確認され、人的ミスでソフトが不具合を起こしたことが判明したと書かれているのだが、おそらくシステム容量という仕様を超える入力をしたのは人的ミスということなのだろう。
正直なところ、ダイヤ変更が発生した数に対して対応できないシステムのほうがおかしい気がしないのでもないのだが。
大本営発表も見てください (スコア:4, 参考になる)
ダイヤ変更に対応で来ていないとか指摘してる人たちは是非ご一読を
これを機に未来の運行予測をしている事とか知っていただけるとありがたいです
タレコミにも追記してくれると良いんだけど…
中の人なのでAC
Re:大本営発表も見てください (スコア:5, 参考になる)
> JR東のプレスリリースが割と詳しい
これですね(注:pdf) [jreast.co.jp]。
確かに詳しいです。新聞記事のあやふやな記述を元に議論するのではなく、まずこっちを見るべきでしょう。
この問題のポイントは
ってところでしょうね。
PDFに挙げられてるような原因で発生する「データ修正が必要な箇所」の数は、大雑把に言えばチェックする時間範囲に比例しますから、
4時間先までのチェックなら600件で実用上問題なかったけど、終日チェックするようにしたのに件数上限を増やさなかったのが敗因、って感じですかね。
Re:大本営発表も見てください (スコア:2)
いや、普段赤字添削すると泣きたくなるような障害報告書が多すぎて鬱になりそうとか思ってたりしないんだからねっ
fj.jokes出身:
Re:大本営発表も見てください (スコア:1)
600件ってどういう根拠から来てるんでしょうかね?
まさか、
1分ごとに画面を消去
↓
修正が必要な個所を洗い出し
↓
ダイヤ画面を再描画
って流れで処理してて、人間の目でみてチカチカしない範囲で
処理が完了するのが600件って話なのかな?
Re:大本営発表も見てください (スコア:1)
で、どの時間範囲で何件までの入力が許容範囲なのかな。
一分間毎に以前の変更箇所を処理済みっていう保証も無いみたいだし、なんだかなーって感じが。
Re:大本営発表も見てください (スコア:1, すばらしい洞察)
1は2をやるまでの間の対策じゃないの?
2が恒久的な対処で、1がそれまでの間の運用での回避.
この手のシステムは問題があるからといって即修正なんてのは無理でしょ.
修正しても問題を起こさないことを、事前にしっかりテストして確認しておかないと.
修正してみたら、よりひどい障害が発生しましたとかいう事態はこの手のシステムだと致命的だろうし.
なんというか (スコア:4, すばらしい洞察)
こういう連中に仕様作らせたらやばいな、というコメントが多いな…
Re:なんというか (スコア:3, すばらしい洞察)
こういう連中がクライアントだったりしても同様にやばいよね。
まだ自動での運転整理はできない (スコア:4, 参考になる)
現段階ではまだ運転整理の問題を計算機で一般的・自動的に解くことはできていません。
既にコメントしている方の中にはかなりそのあたりを勘違いしている方もいらっしゃるようですけど。
COSMOSが自動でやっているのは、今の計画をそのまま実行したときに発生する
支障や条件違反をチェックして警告するという処理で、それへの対処は人間が考えなければなりません。
運転整理の自動化については、JR東日本は割と研究が進んでいる方なんですが、
まだまだとても実用ではないです。
この問題、本当に計算機に自動で解かせることができるのか、絶対無理じゃないか、という意見もあったのですけど、
研究者が頑張ってきたことに加えて、計算機の性能向上と数理計画問題の解法の急速な進歩もあって、
このまま研究を続けていけば実用化が見えてくるかなと思える程度には進歩してきました。
鉄道関連の論文とか読んでいると、ここまで進歩してきたか、凄いなぁと思うものが結構あります。
Re:まだ自動での運転整理はできない (スコア:2, 参考になる)
通常時のダイヤが印刷された紙が指令所にはたくさん常備されています。
それを持ってきて、赤鉛筆とかで変更箇所を書き込みながら考えて、
考えがまとまったら計算機に入力、みたいな感じで作業してます。
もちろん軽微な変更なら直接入力するでしょうが。
計算機の入力インタフェースは、普通に画面にダイヤが表示されていて、マウスで対象を選択してメニューを出して、
変更する内容を選択、あるいは数値をキーボードから入力、みたいな感じです。
今回は、画面に表示されているダイヤで、修正する必要がある(整合性を満たしていない)場所に
赤いマーキングを自動的につけて警告する、というような処理が限度を越えた、ということです。
1箇所修正するとそれに伴って他が制約違反というようなことが連鎖的に発生するので、
もぐら叩きみたいになります。
目の前の事象にとりあえず対処すれば全体が最適になるとは限らないのが、この手の問題の難しいところで、
ある程度全体を見通して考えなければうまくいかないわけです。
そもそもシステムの不具合ではない、らしい (スコア:3, 参考になる)
朝日の記事http://www.asahi.com/national/update/0118/TKY201101180470.html [asahi.com](新幹線トラブル、運行担当者の誤解原因 JR東が謝罪)によると
>JR東日本の五つの新幹線すべてが17日に一時運休したトラブルの原因は、運行担当部門がシステム表示の仕組みを知らされておらず、不具合発生と誤解したためだったと同社が18日、発表した。
となっています。
つまり、一部の表示が消えたのでシステムに不具合が発生したと誤解して全列車を止めてしまった、ということのようです。
乱暴に言うと、普段と違う挙動をしたから壊れたと思った、です。
これを受けてなのかは分かりませんが、各社ニュースでは「システムトラブル」ではなく「運行トラブル」とか「新幹線トラブル」等の表記となっています。
海外への売り込みに絡んだ政治的な意味合いもあるのでしょうが。
おかしくない (スコア:2, すばらしい洞察)
>多数のダイヤ変更に対応できないシステムのほうがおかしい気がしないのでもないのだが。
あらゆる例外に備えるのは、予算的にも無理。
自分の乗った新幹線が遅れた人には気の毒だけど、仕方ないでしょう。
誰か(こういう場合は大体開発会社)を悪者にしてやり過ごそうとしなかったJR東日本は立派だ。
Re:おかしくない (スコア:1, 興味深い)
しっかりした発注者は、自分たちが開発元で、ベンダは下請けだと考えているんですよね。
だから、ベンダを教育するのも責任を取るのも自分たちなわけです。JR東日本以外にも、
BTMUなんかがそうですね。
まあ、下請けに責任を押し付ける開発元はろくなもんじゃないですな。
Re:おかしくない (スコア:2)
交換機が正しく動いたときの正常系の一部を考えているんじゃなかったんだ。
てっきり、「正常系の一部だけ考えるから、下々はそれ以外に必要なところを加味して製造しなさい」的かと思ってた。
---------------------------
なんて思ったりはしてないよ。してないんだからねっ
fj.jokes出身:
COSMOSシステムで現場はまさにCHAOS (スコア:2)
ある列車運行の変更を指定することによって、それ以外の列車の運行にも影響が波及しそうですし、それを洗い出す処理が大きい(大量に変更が入ると計算に必要なリソースが爆発的に増える)とか、そんな感じなんでしょうかね? 門外漢なので想像ですけど。
Re:COSMOSシステムで現場はまさにCHAOS (スコア:2, 参考になる)
↓
B駅以降で列車Aに追い越される遅い列車Cに直接的な影響が出ます
↓
A列車からの乗り換え列車D(別路線)にも遅れが出ます
当然ながら、列車Cに接続する列車Eも遅れます
↓
列車Aは終着駅に5分遅れて着きました。線路配線の都合上「同時に発車できない」
制約があれば折り返し列車Fも遅れます
↓
以下延々とループ
このとき、列車には余裕時分が設定してあるので(通常時、常にフルスピードで
走っているわけではない)、この遅れの連鎖は徐々に収束して平常運転に戻ります。
また、上記の例なら追い越される列車Cの追い越しの駅を先に変えて、遅れが
最小限となるように調整します。
また、列車には「車両」「運転士」「車掌」の3つが揃わないと運転できないため、
このやりくりの作業も発生します。
今回は駅間で止まらないようにダイヤを入力したためであるようなので、一気に
計算が集中して処理落ちしたのかなあ、と思います。緊急時には一括抑止
(その場で非常制動をかける)するはずなので、その為の試験はしていると
思うのですが…。
#何となく、1/15の不具合がなければ1/17の不具合も起きていなかった気が。
ぎりぎり運用やっちゃいけない分野 (スコア:1)
まさにこの部分に尽きると思うの。
データの入れ替えで「全部の」ダイヤを変更したとしても、たかだか通常運用の2倍程度の負荷で済むはず。
それで落ちるってことは、普段から「想定される最大負荷の50%以上」で運用してたってことになるわよね。
新幹線なんてかなりミッションクリティカルな分野なんだから、その時点でかなり駄目じゃないの?
電車が「止まる」だけなら人命に直接は関係しないからいいけど、安全対策とかの部分も「結構ぎりぎり」なのだとしたら怖いわよねぇ。そんなことは無い、と思いたいけど。
Re:ぎりぎり運用やっちゃいけない分野 (スコア:5, すばらしい洞察)
> それで落ちるってことは、普段から「想定される最大負荷の50%以上」で運用してたってことになるわよね。
> 新幹線なんてかなりミッションクリティカルな分野なんだから、その時点でかなり駄目じゃないの?
オンラインデータ処理の認識が甘いと思います。
1カ所でポイント切り替え故障しただけならともかく、同時多発的に発生した場合は
2倍程度では済まないです。リアルタイムで新幹線の位置が変わる中で
筋切り替え、筋戻しをそれぞれのポイント/新幹線車両ごとに調整しながらやっていくわけですから。
しかも新幹線は時速270km とかで 3から 5 分間隔で走っています。
システム設計は別として
全系止めたのは危機対処としては (なかなか出来ない) すばらしい判断だと思います。
Re:ぎりぎり運用やっちゃいけない分野 (スコア:3, すばらしい洞察)
皮肉にもなってないな。
他社がなかなかできない(しない)のは事故回避よりも運行維持に
天秤を傾けているだけだろう。羽越本線で列車がひっくり返って
以降、JRは事故回避の側に倒すようになったが、それが悪いとは
思わないけどな。人死にが出るよりはなんぼかマシだよ。
Re:ぎりぎり運用やっちゃいけない分野 (スコア:2)
> 縮退運転するくらいなら全面停止してしまえという発想ですよね。
今回の件で言うと縮退運転すら出来ない状況になっています。
在来線の速度・密度ならば運転手の目視による運行というのは十分あり得ますが、
新幹線の場合にはコンピュータの補助無しには実質運行できないですから。
1. 運行状況が画面に正常に表示できなくなった
2. 原因を切り分けるためには止めるしかない状況になった
3. 停止した
これだけ早く検出して、復帰しているところを見ると完全にマニュアル化されていたのだと思います。
Re:ぎりぎり運用やっちゃいけない分野 (スコア:4, 参考になる)
今回の事案を纏めると、24件の列車運用を変更したら、自動的に修正されたダイヤが表示限界の600件を超えて表示が消えたと云う物。
表示限界の600件だが、正直言って、一度に600件のデータを人間が目視で確認して対応するのは不可能だから、例え表示出来ても無意味な件数として設定されたのだと思う。
件数が半端なのは、多分、現場が頑張れば、500件なら対応出来ると見たんだろうと推測。
ダイヤ変更自体が「普通じゃ無い事」だから、それを関係各位に通達するとなると、500件でも人間側の作業は大忙しになる事が予見出来る。
「表示」が必要なのは、人間が対応するからで、対応不要なら、初めから表示する必要が無い。
では、24件の設定変更が拙いかと言うと、表示限界600件から考えると、無茶な数では無い筈。
根本問題は、自動変更に任せた、24件が600件以上に膨れ上がる、過密連携ダイヤ編成自体に在る。
それが避けられない場合は、運用で、連鎖しない様に注意して変更する必要が有る。
が、人間が作業する以上は、運用だけでは回避出来ない。
それが実際に起きたのが今回の事例。
「停止しないシステム」としては、通常ダイヤ編成時点で、実は破綻していたと云う事だね。
今後は、「連鎖しないダイヤ生成アルゴリズム」が仕様に入るのだろう。
-- Buy It When You Found It --
Re:それはチョット違うよな (スコア:3, 参考になる)
読売 [yomiuri.co.jp]だと
>同社によると、新幹線の運行を管理するシステム「COSMOS(コスモス)」は、トラブルなどで運行本部の係員がダイヤ変更を行うと、
>その後に運行される列車のダイヤについて自動計算で変更か所を表示する。表示は600件が上限という設定だった。
>トラブルのあった17日朝、雪の影響で新白河、福島駅でポイントが切り替わらなくなり、運行本部は列車24本のダイヤを変更。
>その際、自動計算で変更されたダイヤが600件を超えてしまい、画面が消えるトラブルが発生したという。
プロコンでオーバーロードになるとレスポンスが遅くなるというのはよくある話で、制御系システムではこれを如何に潰すかが
腕の見せ所であるわけですが、それで画面の応答がが遅くなって、表示されないように見えたということだろうと思います。
負荷の増大に耐えるようにすればいいわけですが、それは予算との兼ね合いがあるわけです。
かといって、オーバーロードだから入力の受け付けはやりませんという分けにもいかないのです。
オーバーロードでおかしくなったのは、新幹線で以前もあったと思うし、最近では消防庁で119番がつながらないという
トラブルも起きたばかりですね。
Re:それはチョット違うよな (スコア:2)
プロコンでオーバーロードになるとレスポンスが遅くなるというのはよくある話で、制御系システムではこれを如何に潰すかが腕の見せ所であるわけですが、それで画面の応答がが遅くなって、表示されないように見えたということだろうと思います。
件数が大きくなって巡回セールスマンを解くのに 1/60 秒を超えてしまったのですね
あれ?なんか既視感が……気にしないことにしよう。
Re:これが参考になる意見かな? (スコア:1, すばらしい洞察)
処理内容を把握せずに「平気なはず」って……。
32768都市の巡回セールスマン問題も「平気なはず」ですか?
Re:それはチョット違うよな (スコア:2, 興味深い)
誤動作もしてないしダウンもしてないし、
といった背景は無視ですか?
Re:ぎりぎり運用やっちゃいけない分野 (スコア:1, すばらしい洞察)
鉄道はエラー時のフェイルセーフが重要視される分野だけど、画面表示がおかしくなることで異常が確認されたってのはまずいんじゃないかな。
もし、内部的なエラーが発生しているにもかかわらずエラー表示や異常終了がおこらず、「画面表示」以外の、人間がみえないところでこっそりとエラーをおこしていたら、人が異常に気付かずに重大事故につながった危険性もあるよね。
「本製品は、医療機器、原子力発電など人命に関わる設備や機器、高度な信頼性を必要云々には使っちゃだめだよ」契約ならまだしも、こういうお値段の桁が一つ以上違う契約でエラー検出がしっかりされていないなんて...
Re:ぎりぎり運用やっちゃいけない分野 (スコア:2, 興味深い)
正確には、オーバーロードになっていることを、エラーと定義しなかったので、エラーが出ないのは正常、ということですよね。
で、大事なのは、これを教訓に、オーバーロードについてもエラーなり警告なりが出るように発注仕様に入れておかなければならない、ということをちゃんと知見として蓄えることでしょう。
もちろん、それを組み込むことでコストがどれくらいはね上がるか、という検討も含めて。
Re:ぎりぎり運用やっちゃいけない分野 (スコア:1, すばらしい洞察)
Re:ぎりぎり運用やっちゃいけない分野 (スコア:3, 興味深い)
今の運行管理システムは昔みたいに事故発生等に伴う応急ダイヤ変更時に筋屋さんが新たに手書きでダイアグラムを書く(線を引っ張る)代わりに,適当なパラメータを入力するともろもろの条件を考慮してコンピュータが自動的に処理をするようになってます. もろもろの条件とは車両や乗務員のやりくり、在来線との接続、その他運行管理上の制限事項等です. JR東のCOSMOSはかなり進んだシステムらしいですよ.
というわけで,定期的なダイヤ変更時のデータ入力と事故処理等のための応急処置とは話が違います.
#こういうシステムがなければ,筋屋と司令員込みで新幹線輸出しなけりゃいけなくなる
Re:ぎりぎり運用やっちゃいけない分野 (スコア:1, すばらしい洞察)
COSMOSの優秀さはおっしゃるとおりですが、ツッコミどころはそこではなく
『たかだか通常運用の2倍程度の負荷で済むはず』とか『普段から「想定
される最大負荷の50%以上」で運用してた』とかどんな根拠で言ってるのよ、
ということです。
Re:ぎりぎり運用やっちゃいけない分野 (スコア:1)
...
>コンピュータが自動的に処理を
そういう人間があれこれ考えないといけないのって結構 NP なんとか問題だよねー。
そういうのが解けるということは、なかなかすごいシステムなんだなー。
件数がちょっとふえると大変そうだ。
まあ、事故がなくてなにより。
Re:ぎりぎり運用やっちゃいけない分野 (スコア:2, 興味深い)
>そういう人間があれこれ考えないといけないのって結構 NP なんとか問題だよねー。
必ずしも最適解を求める必要はないので、何らかのヒューリスティックで
チャチャッと片付ければいいんじゃないか、と思います。
Re:ぎりぎり運用やっちゃいけない分野 (スコア:1, 参考になる)
勘違いしている人がいるみたいだが、ダウンはしていないんだよね。
データ配信は正常に行えていて、表示が間に合わなくなったわけ。
正常に表示できない状態でどうやって警告を表示するか知りたいが。
Re:ぎりぎり運用やっちゃいけない分野 (スコア:2, おもしろおかしい)
「時間がかかる可能性があります」といったメッセージのように、
「システムの想定範囲を越えたデータ数です。異常動作を引き起こす可能性がありますが、続行しますか。」
みたいなメッセージがあらかじめ表示されると親切だったかもしれない。
Re:ぎりぎり運用やっちゃいけない分野 (スコア:2)
最初に「運転中の24本の列車を最寄りの駅に止めるダイヤの変更情報」を入力したとの
ことで、結果的に上限の600件を超えたそうだ。
影響しあって600件を超えたのであって、入力時に判定するのは難しいだろう。
Re:ぎりぎり運用やっちゃいけない分野 (スコア:2)
メインフレームのECS(ログ)の画面で高輝度メッセージが大量に出て、reply応答が画面の外に出てしまって気がつかないというネタを思い出しました:-)
けど2008年年末のトラブルも仕様を理解していなかったという所だから、
仕様を守る運用に課題があるのかもしれません。
Re:ぎりぎり運用やっちゃいけない分野 (スコア:1)
>のは難しいだろう。
実更新に行く前に同一条件での影響検索で件数だけはじき出し
事前チェックすることも作りによっては可能かも。
# 制御系で許容されないほどレスポンス低下しそうだけど
まぁ、レコード変更をトリガで拾って影響レコードを更新、
なんて作りだったり、入力以外にセンサ等の情報から自動更新
とかだったりすると事前検知できないですね。
---- 何ぃ!ザシャー
Re:ぎりぎり運用やっちゃいけない分野 (スコア:2)
Re:ぎりぎり運用やっちゃいけない分野 (スコア:1)
場合によっては、走行制御よりも被害者が出る危険性が増えますよ。
如何なる内容であろうとACでの書き込みは一切無視します。
Re:ぎりぎり運用やっちゃいけない分野 (スコア:1, 参考になる)
線路に近づくような類の作業は終電から始発の間までにしか出来ません。
当然保線車両なんか出そうものなら軌道回路が短絡するから停止信号出て列車は止まります。
Re:ぎりぎり運用やっちゃいけない分野 (スコア:2)
鉄道じゃないですけど
最近入っちゃいけないコースへ入っちゃった [sponichi.co.jp]のが有りましたねえ
#これも人為ミス
Re:ぎりぎり運用やっちゃいけない分野 (スコア:1)
カギを開けて上っていくJRと書かれた車両を時たま見るんですが、あれはなんなのでしょう?
作業員が上に行って線路にまで入り込んで作業されてるかは確認してませんが…
如何なる内容であろうとACでの書き込みは一切無視します。
Re:ぎりぎり運用やっちゃいけない分野 (スコア:1)
もしかしてEast-i(926形)とかドクターイエロー(923形)のことを言ってるの?
通常の新幹線車両だからダイヤの隙は縫ってるけどあくまで信号には従うし、アレは普通に走行しながらデータを取得するものだし。
日本に必要なのは寛大さ (スコア:1, すばらしい洞察)
Re:日本に必要なのは寛大さ (スコア:1)
寛大だよね、誰もJRを叩くとかではないからね。
むしろ、「もう、同じことにならないためにはどうしたらいいかねぇ?」といった話になっていると思うんだな。
>たまにはいいじゃないか。
これが繰り替えされると、「たまにはいいじゃないか」とか言ってられないと思うよ。
Re:日本に必要なのは寛大さ (スコア:2)
> > これが繰り替えされると、「たまにはいいじゃないか」とか言ってられないと思うよ。
> 繰り替えされたら、たまにじゃないだろ。
そそ、稼働率で計算したら1年間のたかだか1時間の停止です。
寒い所でじっと耐えなければならないハメに陥った人には申し訳ないですが、
運が悪いとしか。
Re:日本に必要なのは寛大さ (スコア:1)
>繰り替えされたら、たまにじゃないだろ。
頻度って知っています?
同じ理由で3年後でも、今度は叩かれるでしょうね。
繰り返しのサイクルが短い場合だけではないんだよな。
結構あるんだよね、10年前のと同じドジとかさ。
Re:渦中の人 (スコア:1)
高速道路の大渋滞の経験のある人だと、結局下道を走るより高速の方が早かったということが多いので、待つという選択をしそうです。
あと、今の在来線は都市圏の境(大垣―米原、姫路―岡山、沼田―越後湯沢、黒磯―白河、等)でとっても本数が少なく乗り継ぎが悪いこともあったりして。
Re:渦中の人 (スコア:1)
>その乗車券で在来線乗ろうよ、そんなに急いでるんなら、とも思うんだけどどうなんだろ。
代替ルートについて予め調べていなかったりするかもね。
携帯で探すとかもあるだろうけど、一カ所止まると他への影響もあって状況が読みにくいので、躊躇しちゃう。
雪で新幹線が止まって中で数時間という経験をしたことあるけど、見た目も雪ばかりで、在来線も遅れに遅れているというアナウンスもあって、ぬくい新幹線の中で読書タイムにしていたこともあった。
Re:渦中の人 (スコア:5, 興味深い)
現場でわかる情報は非常に少なくあいまいで、待つか行くかの判断は
なかなかつけられません、基本ばくちです。
とりあえず指定を取り直そうかと思っても窓口は長蛇の列。
取り直してもそれが後で運休になるかもしれない。
もしかしたら早く復旧し元列車の指定に座っていけるかもしれないのに、
最悪寿司詰めの自由席で立っていく選択をするか。
在来線に乗り換えるにしても、新幹線の一駅って結構かかりますし
その間に復旧するかもしれない。
そんな中、乗り継ぎの在来線特急の指定を時間差で 2枚も
追加発行してくれて、サービスの良さに感激しました。
席が無駄にならないのか心配でしたが、それは現場で車掌が
采配するみたいでした。(閑散期なのでできた技みたいです)
そもそも指定を取り直さなくても、元の指定券は
(駅員・車掌判断の元)終日有効だったみたいです。
切符を回収しないため(後での清算のための証拠を乗客の手元に
残すため)に自動改札をすべて止めていたのが印象的でした。
システムも大事だけどやっぱ最後は人間だな、と思いましたです、はい。