世界のWebサイトで文字コードがUTF-8のページが90%を超える 53
ストーリー by hylom
ちゃんと指定してくれれば問題は無いのだが 部門より
ちゃんと指定してくれれば問題は無いのだが 部門より
W3Techsが公開している「Usage of character encodings for websites」という統計情報によると、世界中のWebサイトにおいて使われている言語のうち、UTF-8の割合が90%に達している(INTERNET Watch)。
とはいえ、Shift-JISやEUC-JPも多少ではあるがまだ使われており、Shift-JISについてはKakaku.comや2ch.netなど、EUC-JPについてはRakuten.co.jpやGeocities.jp、Mixi.jpなどで使われているという。
未だ (スコア:1)
未だに社内向けの適当なWeb頁では charset=x-euc-jp つこてまんがな。
#Terminal環境設定のまま
ISO-8859-1少ねえ (スコア:0)
ISO-8859-1がたったの4.6%というのに驚いた
何の根拠もなく漫然と、50%くらいあるんじゃないかと思ってた
ISO-2022-JPも少なかった (スコア:2)
Shift_JISやeuc-jpよりiso-2022系の方が多いかと思ってたら、全然逆でした。
Re:ISO-8859-1少ねえ (スコア:1)
ISO-8859-1 が少ないって言うけど、
最上位 bitが 0の場合、UTF-8 と一緒じゃないか?
英語しか使わなきゃ、どっちでも変わらないとか。
HTML5では (スコア:0, 興味深い)
UTF-8以外は規格違反だそうですね。
なんでそんなことになったんだか…。
Re:HTML5では (スコア:2)
そうだったのか
ちょうど昨日触った金融機関のサイトはHTML5宣言でShift_JISって書いてた
なんでもPOST先の外部システムの要件がShift_JISだそうで
Re:HTML5では (スコア:1)
>なんでもPOST先の外部システムの要件がShift_JISだそうで
その先のシステムが、旧来からのPCでの処理がメインのままで更新できないんすかね。
旧いデータも参照しないといけないだろうし、扱うデータから出力データまで一気に文字コード切り替えるのもけっこうたいへんそう。
Open/Closeの際に文字コード判別してフィルターかますだけでも良さそうだけど。
Re:HTML5では (スコア:1)
文字コードはとりあえず統一するってのは鉄則だと思うけど。
文字化けの怖さを経験した人なら誰しも考えることだ。
#HTML5タグで他の文字コードが使いたければ、HTML5を名乗らず独自フォーマットにしとけばいいだけ。
#どーせ標準ツールでの動作保証がなくなるのは同じなんだし。
Re: (スコア:0)
https://www.w3.org/International/questions/qa-html-encoding-declarations.ja [w3.org]
>HTML5仕様ではUTF-16の指定をmeta要素で行うことを禁じています
これを間違って覚えてたんじゃない?
Re:HTML5では (スコア:1)
HTML文書は文字エンコーディングUTF-8でなければなりません [hatenablog.jp]
Re: (スコア:0)
むしろこっち。
http://momdo.hatenablog.jp/entry/20171008/1507462678 [hatenablog.jp]
はてブも。
http://b.hatena.ne.jp/entry/momdo.hatenablog.jp/entry/20171008/1507462678 [hatena.ne.jp]
意外な結果 (スコア:0)
utf-8 が大多数なのは想定内としても、
それ以外の数字がかなり意外。感想を並べると、
・iso-8859-1が思ったより随分少ない。
・世界統計であって日本国内限定でないのに、パーセンテージの4番目に ShiftJISがある。
・中国語圏のBig5が極端に少ない。
・アラビア系が少ないのは逆に想定内か。
・EUC-KRはまぁこんなもんか。
・ロシア系キリル文字圏や、イタリア、スペイン、フランス等のアクセント記号付きアルファベット文化圏は全部Unicodeに含まれるとして、固有のエンコードって無かったのかしら。
ぱっと頭をよぎったのはこんな感想。
Re: (スコア:0)
Windows-なんちゃらがそうだよ。
>固有のエンコードって無かったのかしら。
Re:意外な結果 (スコア:2)
Windows-なんちゃらがそうだよ。
おっと、Windows-31Jの悪口はそこまでです。
# ある種のbad know-howとして、悩んだらcsWindows31Jと書くのは鉄板だったりするような?
# Shift_JISは論外だし(Javaとかで扱いがころころ変わってた)Windows-31JはIEが理解しない
# x-mac-japanease?知りません:p
メールも (スコア:0)
ISO-2022-JPじゃなくてUTF-8になってくれ。
Re: (スコア:0)
それは別にかまわんが、いちいちBASE64でエンコードするのやめてくれない?
Re: (スコア:0)
8年前かぁ。今の情勢はどうなんだろう。
https://it.srad.jp/story/09/01/18/0653225/ [it.srad.jp]
ちなみにUTF-8でバンバン送ってる。
日本語 Windows の標準が UTF-8 なら (スコア:0)
取り扱う文書が全部 UTF-8 になって苦労がないのになぁ。
Re: (スコア:0)
もう何年もエロげのREADME以外でSJISのテキストは見たことないよ
Re:日本語 Windows の標準が UTF-8 なら (スコア:1)
ファイル名もUTF-8にしてほしいでありんす。
LinuxもMacもUTF-8なのにシェア多数のWindowsだけがSJISなせいで圧縮ファイルのやりとり面倒。
MacでUTF-8で書いたテキストファイルもWindowsの知り合いのマシンじゃ文字化けと文句言われる。
ほんとWindowsさんもうそろそろ勘弁してほしい。
Appleも思いきって(APFSに)ファイルシステム変えるまで強引にしてきたし、Windowsさんも文字コード変えちゃいましょうよ。
Re:日本語 Windows の標準が UTF-8 なら (スコア:1)
圧縮ファイルっていうところからzipの問題だと思いますが、フォーマット自体の問題もありますが、世の中に出回っている圧縮展開ソフトの実装がクソすぎるのでどうにもならないでしょう。zipは捨てて7zにしよう。
Re: (スコア:0)
OneDriveと圧縮(Zip形式)フォルダーで違うことするのをやめるくらいはできるだろ
Re: (スコア:0)
文字コード変換にOS自体がSJISの都合を交えるからワヤくちゃになってんよ
「・」「·」が一番わかり易い。
Re: (スコア:0)
実は MSYS2 を使うと Shift_JIS ファイル名の問題の大部分が解決するのではと思っている。
ファイル名は NTFS の UTF-16 ファイル名を UTF-8 に変換して扱っているので Unicode → Shift_JIS 変換の非互換にまつわる問題に悩まされることもない。
zip ファイルは MSYS2 の zip/unzip が UTF-8 ファイル名を扱える…が、逆に Shift_JIS な zip ファイルがちゃんと扱えなかった。
Re: (スコア:0)
UTF8同士でも化けるのよね
http://macwiki.osdn.jp/wiki/index.php/UTF-8-MAC [macwiki.osdn.jp]
Re: (スコア:0)
世界中から殺到するであろうゴカンセイガーという苦情に対して
お前がMSに代わって半永久的に無料で24時間サポートするんならやってくれるよ、多分
Re: (スコア:0)
使ってる圧縮ツールの問題ですよね。
Windows上のアーカイバって、メジャーなものはエンコードは選択できるのが普通。
WinRar/WinZip あたりは、デフォルトエンコードも UTF-8 、7zip は、オプション指定が必要ですけどね。
まぁ UTF-8 に統一されても MacはUTF-8を名乗ってても UTF-8-MACのことでUTF-8ではないので、問題は解決しませんが。
Re: (スコア:0)
Windows自体(エクスプローラ)にも圧縮機能があってですね…。
しっかりSHIFT_JISになってるようです。(Windows7では)
じゃあそれに含まれない文字のファイル名なファイルを圧縮…できない模様。
Re:日本語 Windows の標準が UTF-8 なら (スコア:1)
Re: (スコア:0)
おまけ機能で、他の古い非Unicode対応環境(=Windows 7)が残ってる間は難しいかも。
ちなみにWin8以降なら解凍はデフォルトでちゃんとできます。
Windows7でもパッチを適用すればOK [microsoft.com]
Re: (スコア:0)
棺桶に片足突っ込んでるWiny7何て使ってるからだろw
せめて8.1ぐらい使っとけよ
Re: (スコア:0)
WSHとかシェル(コマンドプロンプト)のリダイレクトとか。
Re: (スコア:0)
メモ帳でBOMありUTF-8しか作れないの何とかして欲しい。
Re: (スコア:0)
逆だろ
unixがBOM付きUTF-8をサポートするのが正解
https://twitter.com/aetos382/status/670084294631649280 [twitter.com]
Re:日本語 Windows の標準が UTF-8 なら (スコア:1)
ASCII で書かれたものがそのまま変換の必要なしに UTF-8 として
扱えるのが、数ある Unicode のエンコード方式の 中での UTF-8 の
メリットなのに、わざわざ BOM を付けて ASCII でなくせという
主張が通るわけがない。
あと、 UNIX が BOM 付き UTF-8 を "サポートしていない" というより、
"ZERO WIDTH NO-BREAK SPACE として扱っている" と考えるのが
妥当だと思う。
Re: (スコア:0)
わざわざ BOM を付けて ASCII でなくせという主張が通るわけがない。
そうじゃないでしょ。
リーダーはBOMが付いてても付いて無くても解釈できるべき。書く側はどっちでもいい。
でも非対応と明示するならそれもいいと思う。それが仕様なら仕様外のものを食わせる人間が悪い。
Re:日本語 Windows の標準が UTF-8 なら (スコア:1)
バッチファイルが BOM 付き UTF-8 をサポートしたら考えてやっても良い :-p
Re: (スコア:0)
Re: (スコア:0)
今どきバッチファイル(笑)
「さっさとPowerShellに移行しろ」で終わる話だな
Re: (スコア:0)
設計者は頭おかしいよね
Re: (スコア:0)
BOMを付ければいいじゃない
Re: (スコア:0)
The Unicode Standard, Version 5.0
Use of a BOM is neither required nor recommended for UTF-8
BOMがあっても誤りではないが、推奨ではない。
Re:日本語 Windows の標準が UTF-8 なら (スコア:1)
ところが最近は下記のような文章が追加されてたり。 (最新の 10.0 から引用)
ざっくり訳すと、他の BOM 付のエンコードから変換された場合や、 UTF-8 であることを示すシグネチャとして使われる場合に見られるということで、まさに Windows が BOM を UTF-8 の判別に使っているのを追認するような形。
で、そのすぐ後の表でも UTF-8 の "BOM Allowed?" が yes になってる。
Re: (スコア:0)
いやいやUTF-8にバイトオーダーは(1つしか)無いんだから
BOMを付ける事自体無意味でしょ
BOMはエンコードを区別するための印じゃないよ?
Re: (スコア:0)
ストレージのことをROMと呼ぶ [hardware.srad.jp]のと同じようなものだろ
名前と実態が乖離してるってだけ
BOMを付けてほしくないならUTF-8と他のエンコーディングを区別できるような方法を提案してくれ
根拠 (スコア:0)
リンク先にあった
See technologies overview for explanations on the methodologies used in the surveys.
を辿って出たページに、こう書いてあった。
https://w3techs.com/technologies [w3techs.com]
We include only the top 10 million websites (top 1 million before June 2013) in the statistics in order to limit the impact of domain spammers. We use website popularity rankings provided by Alexa (an Amazon.com company) using a 3 months average ranking. Alexa rankings are sometimes considered inaccurate for measuring website traffic, but we find that they serve our purpose of providing a representative sample of established sites very well.
ここ5年以内で、Alexaのランキング100万を占めた1000万のサイトの文字コードから判定しているらしい、程度にしかおいらにはわからんので、引用していない部分も含め、精確な解説希望。
日本での割合は? (スコア:0)
同じソースのserver locations for websites [w3techs.com]によると日本にあるサーバーは5.5%。
単純に国内以外に日本語のページがないと考えちゃうと、
Shift JIS 0.8%、EUC-JP 0.3%は合計20%に相当。UTF8は80%相当ということかな。世界が90%だからちょっと遅れてる感じ。
#統計にある「language」は意味が違った・・・
ascii のページは (スコア:0)
自動的に utf-8 扱い?
それとも encoding として指定されてるものをカウントしてる?
ファイル名 (スコア:0)
お前らの使ってるファイル名の文字コードを確認せよ
Re: (スコア:0)
だいぶ前にUTF-8に移行したよ(Debian/GNU Linux)。