アカウント名:
パスワード:
Twitterの字数制限変更 日本語と英語の「140文字」はどれだけ情報量が違うのか? [itmedia.co.jp]
翻訳会社ジェスコに話を伺ったところ、翻訳業界では一般的に「日本語400字の情報量 = 英語1000字(スペースを含む/約200単語に相当)の情報量」と考えられているそうです。つまり、日本語1文字あたりの情報量は英語の2.5倍。従来のTwitterの字数制限に当てはめてみると 140字の日本語 = 英語350字分140字の英語 = 日本語56字分 ということになります
翻訳会社ジェスコに話を伺ったところ、翻訳業界では一般的に「日本語400字の情報量 = 英語1000字(スペースを含む/約200単語に相当)の情報量」と考えられているそうです。つまり、日本語1文字あたりの情報量は英語の2.5倍。従来のTwitterの字数制限に当てはめてみると
ということになります
> せめて、バイト数で換算すべきだったのでは……。
バイト数はエンコードによってぜんぜん違うから、まずそれを指定しないと。
UTF-8 なら、基本ラテン文字は1オクテット、フランス語やドイツ語で使われるラテン補助は2オクテット、カナや漢字は3オクテット。
ところがUTF-16ならこれが全部2オクテット。
あと、AppleのOSでUTF-8の濁音・半濁音を書くと合成用濁点・半濁点をつかって6オクテットになるから、その違いも加味しないと。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
ナニゲにアレゲなのは、ナニゲなアレゲ -- アレゲ研究家
使える文字の種類が違いすぎる (スコア:3, 興味深い)
Twitterの字数制限変更 日本語と英語の「140文字」はどれだけ情報量が違うのか? [itmedia.co.jp]
しもべは投稿を求める →スッポン放送局がくいつく →バンブラの新作が発売される
Re:使える文字の種類が違いすぎる (スコア:1)
> せめて、バイト数で換算すべきだったのでは……。
バイト数はエンコードによってぜんぜん違うから、まずそれを指定しないと。
UTF-8 なら、基本ラテン文字は1オクテット、フランス語やドイツ語で使われるラテン補助は2オクテット、カナや漢字は3オクテット。
ところがUTF-16ならこれが全部2オクテット。
Re:使える文字の種類が違いすぎる (スコア:1)
あと、AppleのOSでUTF-8の濁音・半濁音を書くと合成用濁点・半濁点をつかって6オクテットになるから、その違いも加味しないと。