アカウント名:
パスワード:
Twitterの字数制限変更 日本語と英語の「140文字」はどれだけ情報量が違うのか? [itmedia.co.jp]
翻訳会社ジェスコに話を伺ったところ、翻訳業界では一般的に「日本語400字の情報量 = 英語1000字(スペースを含む/約200単語に相当)の情報量」と考えられているそうです。つまり、日本語1文字あたりの情報量は英語の2.5倍。従来のTwitterの字数制限に当てはめてみると 140字の日本語 = 英語350字分140字の英語 = 日本語56字分 ということになります
翻訳会社ジェスコに話を伺ったところ、翻訳業界では一般的に「日本語400字の情報量 = 英語1000字(スペースを含む/約200単語に相当)の情報量」と考えられているそうです。つまり、日本語1文字あたりの情報量は英語の2.5倍。従来のTwitterの字数制限に当てはめてみると
ということになります
極端な例 「菊」⇔「chrysanthemum」文字数ではなくバイト数にしたとしても本質的には問題解決にはなっていないですね(表意文字対表音文字)。英語換算で何文字かで判断して、ツイッターの公式リアルタイム翻訳エンジンを用意し、その翻訳された英文の文字数でもって判断するとかすれば、より公正な比較になるかもしれない。訳の仕方には文句言わせない。
280文字になるかも、という噂が出た時に行った計算 [srad.jp]ですが、
アルファベット26文字+数字10文字+スペースで計37文字、1文字あたりの情報量はlog237 = 5.2bit漢字第1水準2965文字+第2水準3390文字で計6355文字、1文字あたりの情報量はlog26355 = 12.6bit12.6bit/5.2bit=2.43倍
ということで、#3309582 [srad.jp]で挙げられた翻訳会社が直感的に捉えている情報量の差は「2.5倍」という数字とほどよく一致しますね。
出現確率がすべての文字で等しいとは限りませんよ
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
「科学者は100%安全だと保証できないものは動かしてはならない」、科学者「えっ」、プログラマ「えっ」
使える文字の種類が違いすぎる (スコア:3, 興味深い)
Twitterの字数制限変更 日本語と英語の「140文字」はどれだけ情報量が違うのか? [itmedia.co.jp]
しもべは投稿を求める →スッポン放送局がくいつく →バンブラの新作が発売される
Re: (スコア:0)
極端な例 「菊」⇔「chrysanthemum」
文字数ではなくバイト数にしたとしても本質的には問題解決にはなっていないですね(表意文字対表音文字)。
英語換算で何文字かで判断して、ツイッターの公式リアルタイム翻訳エンジンを用意し、その翻訳された英文の文字数でもって判断するとかすれば、より公正な比較になるかもしれない。訳の仕方には文句言わせない。
Re: (スコア:1)
Re:使える文字の種類が違いすぎる (スコア:1)
280文字になるかも、という噂が出た時に行った計算 [srad.jp]ですが、
アルファベット26文字+数字10文字+スペースで計37文字、1文字あたりの情報量はlog237 = 5.2bit
漢字第1水準2965文字+第2水準3390文字で計6355文字、1文字あたりの情報量はlog26355 = 12.6bit
12.6bit/5.2bit=2.43倍
ということで、#3309582 [srad.jp]で挙げられた翻訳会社が直感的に捉えている情報量の差は「2.5倍」という数字とほどよく一致しますね。
Re: (スコア:0)
出現確率がすべての文字で等しいとは限りませんよ
Re: (スコア:0)