アカウント名:
パスワード:
Twitterの字数制限変更 日本語と英語の「140文字」はどれだけ情報量が違うのか? [itmedia.co.jp]
翻訳会社ジェスコに話を伺ったところ、翻訳業界では一般的に「日本語400字の情報量 = 英語1000字(スペースを含む/約200単語に相当)の情報量」と考えられているそうです。つまり、日本語1文字あたりの情報量は英語の2.5倍。従来のTwitterの字数制限に当てはめてみると140字の日本語 = 英語350字分140字の英語 = 日本語56字分 ということになります。
翻訳会社ジェスコに話を伺ったところ、翻訳業界では一般的に「日本語400字の情報量 = 英語1000字(スペースを含む/約200単語に相当)の情報量」と考えられているそうです。つまり、日本語1文字あたりの情報量は英語の2.5倍。従来のTwitterの字数制限に当てはめてみると
ということになります。
というわけで、倍にしてもまだ日本語のほうが情報詰め込めるっぽいです。
そもそも中国語とかの漢字交じりの言語と比較したら、使える文字のバリエーションがぜんぜん違うわけで、「文字数」でカウントすること自体がおかしいのではないのかと。せめて、バイト数で換算すべきだったのでは……。
ここにぶら下げます。製品マニュアルとかで、複数の言語で同じ説明が書いてある時「どの言語がコンパクトに表現できるのかな?」っていつも見ちゃうんですが、大差なく見えるんです。
一文字当たりの情報量は多いのかもしれないけど、占有スペースは同じなんだろうなと。PCの上では固定フォントの場合、通常日本語はアルファベットの2文字分占有しますしね。(半角カタカナとか、㌧㌦ とか例外やで)
日本語の場合、丁寧語使うと無駄に長くなりますねぇ。英語と比べて短くなってる印象は無い。逆に、命令語調で書くとえらく短い。
まぁ中国語にはかないませんけど。たぶん一番短い。
あと、占有スペースって点だと、アルファベットは小さく書いても読めるって点は重要。漢字かなだと16ドットは欲しいけど、アルファベットなら半分以下でokてな具合で。印刷だと重要じゃないかな。
そういえば昔、雑誌I/Oで8bitパソコンでの高密度表示を目指して3x7ドット(縦横1dotのスペーシングを入れて1文字4x8ドット占有)のフォントを頑張って作ってた人がいました。
なんとかしてうまく返したいんだけど俺の頭じゃデキッコナイス
> せめて、バイト数で換算すべきだったのでは……。
バイト数はエンコードによってぜんぜん違うから、まずそれを指定しないと。
UTF-8 なら、基本ラテン文字は1オクテット、フランス語やドイツ語で使われるラテン補助は2オクテット、カナや漢字は3オクテット。
ところがUTF-16ならこれが全部2オクテット。
あと、AppleのOSでUTF-8の濁音・半濁音を書くと合成用濁点・半濁点をつかって6オクテットになるから、その違いも加味しないと。
せめて、バイト数で換算すべきだったのでは……。
開発者は楽かもしれないが、ユーザーは知ったこっちゃないし、そもそも理解不能だろ。
Shift_JISで等幅フォントならほぼ見た目が一致したのに…そうだShift_JISに回帰しよう。え、ギリシャ文字とキリル文字圏から不満が出る?
回帰した結果が今回の「CJKは140文字、それ以外は280文字」だよ。mb_strwidth()で算出出来るからphperは楽だろ。
極端な例 「菊」⇔「chrysanthemum」文字数ではなくバイト数にしたとしても本質的には問題解決にはなっていないですね(表意文字対表音文字)。英語換算で何文字かで判断して、ツイッターの公式リアルタイム翻訳エンジンを用意し、その翻訳された英文の文字数でもって判断するとかすれば、より公正な比較になるかもしれない。訳の仕方には文句言わせない。
そうですねー。
「珪性肺塵症」⇔「Pneumonoultramicroscopicsilicovolcanoconiosis」「早大理工」⇔「Waseda University Faculty of Science and Engineering」
早大理工相当だと WUFSE か WUFoSaE では?比較するなら早稲田大学理工学部、あるいは早稲田大学理学工学部あたりのように感じますが……いかがでしょう?
メアリーポピンズで知ったスーパーカリフラジリスティックエクスピアリドーシャスは Supercalifragilisticexpialidocious のようですが、意味がよく分かりません。
いかがでしょうとか言われても、現実がそうなってるんだから仕方ない。
https://twitter.com/Ysk_Producer/status/927692420623474689 [twitter.com]
文字によって出現率が違うんだからそれも加味しないと
gzipで○○バイトまでにする?
280文字になるかも、という噂が出た時に行った計算 [srad.jp]ですが、
アルファベット26文字+数字10文字+スペースで計37文字、1文字あたりの情報量はlog237 = 5.2bit漢字第1水準2965文字+第2水準3390文字で計6355文字、1文字あたりの情報量はlog26355 = 12.6bit12.6bit/5.2bit=2.43倍
ということで、#3309582 [srad.jp]で挙げられた翻訳会社が直感的に捉えている情報量の差は「2.5倍」という数字とほどよく一致しますね。
出現確率がすべての文字で等しいとは限りませんよ
海外移植版のゲームボーイ(ポケモンとか)のプレイ動画なんか見ると、日本語の情報圧縮率すげえなって思う。
ちゃんと読めるかどうかを無視して詰め込めば、て話な気がしなくもないが。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
アレゲは一日にしてならず -- アレゲ研究家
使える文字の種類が違いすぎる (スコア:3, 興味深い)
Twitterの字数制限変更 日本語と英語の「140文字」はどれだけ情報量が違うのか? [itmedia.co.jp]
というわけで、倍にしてもまだ日本語のほうが情報詰め込めるっぽいです。
そもそも中国語とかの漢字交じりの言語と比較したら、使える文字のバリエーションがぜんぜん違うわけで、「文字数」でカウントすること自体がおかしいのではないのかと。
せめて、バイト数で換算すべきだったのでは……。
しもべは投稿を求める →スッポン放送局がくいつく →バンブラの新作が発売される
占有面積にはチューイせよ (スコア:1)
ここにぶら下げます。
製品マニュアルとかで、複数の言語で同じ説明が書いてある時「どの言語がコンパクトに表現できるのかな?」っていつも見ちゃうんですが、大差なく見えるんです。
一文字当たりの情報量は多いのかもしれないけど、占有スペースは同じなんだろうなと。PCの上では固定フォントの場合、通常日本語はアルファベットの2文字分占有しますしね。(半角カタカナとか、㌧㌦ とか例外やで)
Re:占有面積にはチューイせよ (スコア:1)
日本語の場合、丁寧語使うと無駄に長くなりますねぇ。英語と比べて短くなってる印象は無い。
逆に、命令語調で書くとえらく短い。
まぁ中国語にはかないませんけど。たぶん一番短い。
あと、占有スペースって点だと、アルファベットは小さく書いても読めるって点は重要。
漢字かなだと16ドットは欲しいけど、アルファベットなら半分以下でokてな具合で。印刷だと重要じゃないかな。
Re:占有面積にはチューイせよ (スコア:3)
そういえば昔、雑誌I/Oで8bitパソコンでの高密度表示を目指して3x7ドット(縦横1dotのスペーシングを入れて1文字4x8ドット占有)のフォントを頑張って作ってた人がいました。
Re: (スコア:0)
なんとかしてうまく返したいんだけど俺の頭じゃデキッコナイス
Re:使える文字の種類が違いすぎる (スコア:1)
> せめて、バイト数で換算すべきだったのでは……。
バイト数はエンコードによってぜんぜん違うから、まずそれを指定しないと。
UTF-8 なら、基本ラテン文字は1オクテット、フランス語やドイツ語で使われるラテン補助は2オクテット、カナや漢字は3オクテット。
ところがUTF-16ならこれが全部2オクテット。
Re:使える文字の種類が違いすぎる (スコア:1)
あと、AppleのOSでUTF-8の濁音・半濁音を書くと合成用濁点・半濁点をつかって6オクテットになるから、その違いも加味しないと。
Re:使える文字の種類が違いすぎる (スコア:1)
開発者は楽かもしれないが、
ユーザーは知ったこっちゃないし、そもそも理解不能だろ。
Re:使える文字の種類が違いすぎる (スコア:1)
Shift_JISで等幅フォントならほぼ見た目が一致したのに…
そうだShift_JISに回帰しよう。
え、ギリシャ文字とキリル文字圏から不満が出る?
Re: (スコア:0)
回帰した結果が今回の「CJKは140文字、それ以外は280文字」だよ。
mb_strwidth()で算出出来るからphperは楽だろ。
Re: (スコア:0)
極端な例 「菊」⇔「chrysanthemum」
文字数ではなくバイト数にしたとしても本質的には問題解決にはなっていないですね(表意文字対表音文字)。
英語換算で何文字かで判断して、ツイッターの公式リアルタイム翻訳エンジンを用意し、その翻訳された英文の文字数でもって判断するとかすれば、より公正な比較になるかもしれない。訳の仕方には文句言わせない。
Re:使える文字の種類が違いすぎる (スコア:3)
そうですねー。
「珪性肺塵症」⇔「Pneumonoultramicroscopicsilicovolcanoconiosis」
「早大理工」⇔「Waseda University Faculty of Science and Engineering」
Re: (スコア:0)
早大理工相当だと WUFSE か WUFoSaE では?
比較するなら早稲田大学理工学部、あるいは早稲田大学理学工学部あたりのように感じますが……いかがでしょう?
メアリーポピンズで知ったスーパーカリフラジリスティックエクスピアリドーシャスは Supercalifragilisticexpialidocious のようですが、意味がよく分かりません。
Re: (スコア:0)
いかがでしょうとか言われても、現実がそうなってるんだから仕方ない。
https://twitter.com/Ysk_Producer/status/927692420623474689 [twitter.com]
Re:使える文字の種類が違いすぎる (スコア:1)
Re:使える文字の種類が違いすぎる (スコア:1)
文字によって出現率が違うんだからそれも加味しないと
gzipで○○バイトまでにする?
Re:使える文字の種類が違いすぎる (スコア:1)
280文字になるかも、という噂が出た時に行った計算 [srad.jp]ですが、
アルファベット26文字+数字10文字+スペースで計37文字、1文字あたりの情報量はlog237 = 5.2bit
漢字第1水準2965文字+第2水準3390文字で計6355文字、1文字あたりの情報量はlog26355 = 12.6bit
12.6bit/5.2bit=2.43倍
ということで、#3309582 [srad.jp]で挙げられた翻訳会社が直感的に捉えている情報量の差は「2.5倍」という数字とほどよく一致しますね。
Re: (スコア:0)
出現確率がすべての文字で等しいとは限りませんよ
Re: (スコア:0)
Re: (スコア:0)
海外移植版のゲームボーイ(ポケモンとか)のプレイ動画なんか見ると、日本語の情報圧縮率すげえなって思う。
Re: (スコア:0)
ちゃんと読めるかどうかを無視して詰め込めば、て話な気がしなくもないが。