
「うるう秒」が原因の障害、複数の大手サイトで発生 24
ストーリー by reo
うるう病 部門より
うるう病 部門より
ある Anonymous Coward 曰く、
7 月 1 日、「うるう秒」が挿入されたが、この影響で多くのサイトで障害が発生したという (WIRED.jp の記事) 。
分散データベースシステムである Cassandra や Hadoop で問題が生じたほか、MySQL が高負荷状態になったという話もある (SH2 の日記エントリー) 。
海外では foursquare, Yelp, LinkedIn, Gawker, StumbleUpon といった Web サービスが影響を受け、日本では mixi で障害が発生したようだ (朝日新聞デジタルの記事) 。
Linux カーネルのバグが原因 (スコア:5, 参考になる)
Linuxカーネルのうるう秒処理にバグがあったそうです.
https://lkml.org/lkml/2012/7/1/27 [lkml.org]
すでに修正パッチが流れています.
なんで今回のうるう秒だけこんな大騒ぎになってるの? (スコア:1)
以前のうるう秒でもこんな大規模に報道されるほど障害発生した記憶がないんだけど
Re:なんで今回のうるう秒だけこんな大騒ぎになってるの? (スコア:4, 参考になる)
前の時はバグがなかった (スコア:2)
前回のうるう秒以降のバージョンで入り込んだバ グだったから、ですね。
#こういうのもデグレードって言うんだろうか?
Re:なんで今回のうるう秒だけこんな大騒ぎになってるの? (スコア:1)
今まで以上にLinuxを使ってるサイトが多くなったってことじゃないかなあ。
#少なくとも俺もAIX/Solarisでこんな対応した記憶が無い。。。
Re: (スコア:0)
正確に合わせる必要がないサイトも合わせ始めたってのもある。
いままでntpdさえ動かしていなかったところが、この2,3年のリプレースで
すべてntp程度の精度で合わせる機器ばかりになってしまい、ノウハウのないまま
事態を迎えた。
うるう秒なんて90年代では毎年のようにあり、問題になることもほぼ無かったのに。
どうみても (スコア:0)
停止しても問題ないサービスばかりだろ。
10秒くらいサービスを停止してその間に調整したほうがよかったんじゃないか
Re: (スコア:0)
ファーストサーバの件で、コマンド発行にもセンシティブになっていたというのはさすがに穿った見方か。
よほど時間に正確でないとまずいシステムだったんだろう。mixi。
Re: (スコア:0)
問題が発生すること、そしてその解決法がわかっていればそうしてたでしょうね
Re:どうみても (スコア:1)
問題発生の可能性も対処法も示しているサイトはありましたよ。
http://www.mcafee.com/japan/pqa/aMcAfeeEws55.asp?ancQno=EW512060701 [mcafee.com]
Re:どうみても (スコア:4, 参考になる)
でも、リンク先の話と、ここで言われている Java 関連や MySQL で影響が出た件とは別の話です。
Leap Seconds in Red Hat Enterprise Linux - Red Hat Customer Portal: [redhat.com]
上記ページは、マカフィーのページで指摘されているものと同じカーネルの問題に関して、Red Hat がアナウンスしているものですが、注目して欲しいのは、「Resolution」という節で、RHEL Ver.6 に関する注意書きがあります。
If you are running Red Hat Enterprise Linux 6, please see the following knowledgebase articles:
Systems hang due to leap-second livelock.
High CPU Usage after inserting the leap second.
元々、RHEL Ver.4、Ver.5 でカーネルのアップデートをしていない場合に、カーネル自体がハングアップする可能性がある、というのはアナウンスされていて、その件に関しては Ver.6 は問題なしだったんですが、それとは別の問題が Ver.6 に発生していて、こちらは、カーネルがハングアップするのではなく、特定のアプリケーションで、高負荷な状態に陥る、という現象になります。
ちなみに、カーネルがハングアップする現象に関しては、下記の LKML への投稿で報告されていて、高負荷時にデッドロックが発生して、カーネルがハングアップする事があったようです。
LKML: Chris Adams: Re: Bug: Status/Summary of slashdot leap-second crash on new years 2008-2009: [lkml.org]
Re: (スコア:0)
Javaで発生したっていう人はいるけど、あんまりRubyのケースはなさそうなんですよね。
同じような症状になった人いませんかね?
Re: (スコア:0)
サイボウズも停止してましたね
おかげで仕事にならんかった
で、影響(困ったこと)受けた人いる? (スコア:0)
一般ユーザーとして。
(中の人は除く。)
Re:で、影響(困ったこと)受けた人いる? (スコア:1)
WindowsXPで時計が2016年になってなぜかThunderbirdの受信済みメールが全部消えてしまうという現象がありました
調べたものの具体的な原因はよくわかりませんでしたが…
Re: (スコア:0)
WindowsXPで時計が2016年になって
こっちは判らん。
ログ見てくれw
(システムログの時間がずれてるはず)
Thunderbirdの受信済みメールが全部消えてしまうという現象がありました
「~日以上経過したメールは削除」って設定になっているだけじゃね?
Re:で、影響(困ったこと)受けた人いる? (スコア:1)
うるう秒関係か分からんけど
月曜の朝から一部内線電話が不通。
再起動して治ったらしいが、今朝もまた同様。
判明したのは月曜だが、日曜の朝から発生して
いた可能性も。
Re:で、影響(困ったこと)受けた人いる? (スコア:1)
休日手当てが実際に働いた時間より1秒に相当する額だけ少なかったです。
自宅警備員は休みが取れないのだよorz
Re: (スコア:0)
mixiのダウンで困った人は居るでしょう。
# 新聞沙汰になるような公共インフラ系で何も無くて良かった・・・
Re: (スコア:0)
「次のうるう秒で世界中の電話が使えなくなるらしい」
「パソコンを切っておくと大丈夫らしい」
になる影響が予想されます。
Re: (スコア:0)
Y2Kェ…
Re: (スコア:0)
Tomcatが高負荷状態でサービスを再起動しても状況が変わらず困りました。
障害が発生した時間からみて影響を受けたのではと考えています。
Re: (スコア:0)
一般ユーザーじゃないじゃんというのは置いておいて、応答性が悪化したのではなく負荷が上がったんですか? それもカーネルでなくTomcatの負荷?
何か無意味なwaitのせいで応答性が悪化したのでなく、実際に負荷が上がったなら何か無意味な計算をしているということですが、いったい何が起こっていたんでしょうね。
2chまで (スコア:0)
どうやら2chでも問題が起こったらしいです
engawa.2ch.netがずっと不調