[4月1日ネタ]「吉野家HDと高島屋が日本語UTF-8メール普及コンソーシアムを設立」 | targzの日記

targzの日記： [4月1日ネタ]「吉野家HDと高島屋が日本語UTF-8メール普及コンソーシアムを設立」 66

日記 by targz 2012年03月31日 21時08分

株式会社吉野家ホールディングスと株式会社高島屋は、日本語メールでの UTF-8 使用を推進する団体として「日本語UTF-8メール普及コンソーシアム」の設立に合意した。
両社の正式名表記は「吉」や「高」ではなく、「つちよし」と呼ばれる吉や「はしごだか」と呼ばれる高の字を用いる。しかし、これらの文字は Unicode では表示が可能であるものの、現在の日本語メールで主流となっている ISO-2022-JP では表示させることができない。したがって、発行しているメールマガジンでは一般的な「吉」や「高」の文字を使わざるを得ない状況となっている。

現在のパソコンや携帯端末は UTF-8 を扱える OS を採用していることが多く、搭載している MUA も UTF-8 対応であることが多い。もはや、UTF-8 エンコーディングのメールを送信しても閲覧できる環境が整っていると言える。両社は、日本語 UTF-8 メールならば、吉野家の吉や高島屋の高を本来の字体で使うことができるため、可能ならば UTF-8 エンコーディングを使用したい意向だ。

しかし、これらの文字は Unicode のサロゲートペアの文字であり、UTF-8 では4バイトになってしまう。このため、これらの文字を使うためには、単なる Unicode 対応ではなく、サロゲートペアおよび4バイトUTF-8への対応が必要となる。そこで、「日本語UTF-8メール普及コンソーシアム」の設立によって、サロゲートペアの Unicode 文字および4バイトUTF-8を扱える環境を普及することとした。

UTF-8 エンコーディングの日本語メールを「日本語UTF-8メール」と名付けて普及を図る。
両社が発行するメールマガジンにおける UTF-8 化する。
MySQL や PHP, Perl など LAMP 環境における4バイト UTF-8 対応設定を啓発する。
日本語インターネットメールに UTF-8 を使用すべきと規定した RFC を策定する。(RFC1468 の obsolute 化)

なお、東京都葛飾区、奈良県葛城市と同県北葛城郡も本コンソーシアムへの加盟を検討している模様である。

この議論は賞味期限が切れたので、アーカイブ化されています。新たにコメントを付けることはできません。

記事ページを表示すべてのコメント取得

検索66コメント Log In/Create an Account

四月莫迦ネタにマジレスカコワルイが、あえて言う (スコア:3, 興味深い)

by SD (32008) on 2012年04月01日 10時55分 (#2127509) 日記

UTF8を普及させようという目的ならば賛成する。だが、単に「」（つちよし）や「髙」が使いたいだけならお引き取り願う。
「」（つちよし）の上部「土」になっていたり「髙」が存在するのは手書きの話であって、活字と手書きは歴史そのものが違う。これは「木」の縦棒がはねている字形を異体字として認めないのと同じ理屈。意味上の差異がないにもかかわらず字形に拘泥する輩はまず書道を学べ。
# 海外でこれに似た例ってあるの？
# 例えば、印刷された自分の名前を見たGeorgeさんが、"George"のgは double-story [mac.com] のgだ。わしゃ昔からそう書いたきた
# と抗議した例とか。
※つちよしはプレビュー時に表示されなかったので括弧書きで補足した。
- Re:四月莫迦ネタにマジレスカコワルイが、あえて言う (スコア:1)
  
  by Anonymous Coward on 2012年04月01日 11時18分 (#2127517)
  
  # 海外でこれに似た例ってあるの？
  CJKVの字形問題なんてまさに海外の例じゃないか。
  
  シェア
  
  親コメント
- Re:四月莫迦ネタにマジレスカコワルイが、あえて言う (スコア:1)
  
  by ReadOnly (9749) on 2012年04月01日 11時30分 (#2127524)
  
  書道に詳しそうなあなたに早速学ぼうと思うのだけど、高と髙って同じ筆順で書けるの？
  木の縦棒がはねているのとはだいぶ話が違う気がする。
  
  シェア
  
  親コメント
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    書道の上で同じ筆順で書ける文字は同じ文字だ、ということを言いたいんじゃなくて、
    書道を学べば文字の由来や歴史が分かるから「高」と「髙」を区別する意味なんてないことが分かる
    と言いたいんじゃないの？
    そういう意味じゃ、筆順なんてあとからとってつけたものだし、それほど重要とは思えない。
ISO-2022-JPの「高」 (スコア:2, 参考になる)

by z80a (45168) on 2012年04月01日 9時53分 (#2127478)

ISO-2022-JPの「高」はくち高・はしご高の区別（異体字の区別）はありませんよね。
いろんな異体字を含む同一の文字としての「高」に対してコードが割り振られてるわけで。
現在主流のOSやフォントが「高」に対してくち高を割り当てているのは、たまたまそうなってるだけ。
そんなこと言い出したら「うちは変体仮名でないとだめ」とか「絵文字でないとだめ」とか
きりがない。（「かまわぬ」とか？）
- Re:ISO-2022-JPの「高」 (スコア:1)
  
  by Anonymous Coward on 2012年04月01日 10時37分 (#2127500)
  
  口高、はしご高を同一文字としてしまっている、言語学的に不備があり、実用上も不便のあるコード体系ですよね、ISO-2022-JP。
  そんなこと言い出したら、日本語はすべて英語アルファベットを用いてローマ字書きでいいとか
  きりがない。（「かまわぬ」とか？）
  
  シェア
  
  親コメント
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    いえいえ、くち高とはしご高は同一の文字です。
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      同一じゃないでしょ．異体字の話をしてるんですよ？
      - Re:ISO-2022-JPの「高」 (スコア:1)
        
        by Anonymous Coward on 2012年04月01日 13時22分 (#2127590)
        
        同じ文字に属する別の異体字です。
        活字でよくある、丸の上に横棒が伸びてきている「a」と、
        手書きでよくある、丸の上に横棒が伸びてきていない「a」は、
        別の異体字ですが、同じ文字です。
        
        シェア
        
        親コメント
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        > 誰もアルファベットの話はしていません。馬鹿じゃねえの。
        はい。馬鹿です。あなたが例を例として受け取る能力を欠いた人だということを見抜けなかった私が馬鹿です。
        その例にこだわるつもりはないのでその部分はとりさげてもいいですが
        （「言」の例とか「木」の例とかが別のコメントにあるのでそれを見て頂いてもいいですし、
        例はよりわかりやすくるためのものですから、なくてもいいです）、
        「同じ文字に属する別の異体字」という点については、いかがでしょうか。
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      日本語で、何をもってひとつの文字とするのかを定義している物、場所、規格ってあるんでしょうか？
      常用漢字？国語審議会みたいのが決めてる？
      本気で知らないので、教えてください。
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        規格はいろいろあるようですが1978年に制定されて1997年に「何をもってひとつの文字とするのかを定義」するための基準（包摂という）が明確化された
        JIS X 0208という日本工業規格を紹介します。
        JIS X 0208
        http://ja.wikipedia.org/wiki/JIS_X_0208 [wikipedia.org]
        JIS X 0208の1997年改定でどのような字体差を含み包むかが明示され、公開されています。
        http://www.aozora.gr.jp/hosetsu_kijyun/0208-6.6.3 [aozora.gr.jp]
- Re: (スコア:0)
  
  by Anonymous Coward
  
  たまたまじゃねぇよ。常用漢字表の字体に合わせてあるんだよ。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    > たまたまじゃねぇよ。常用漢字表の字体に合わせてあるんだよ。
    合わせたのはフォント作者の自由意志によるものでしょう？
    はしご高で作っても規格に違反しない。
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      ガラパゴス規格ではそうだね。
      国産の規格なのに常用漢字表の通用字体とそうじゃない字体も区別できないんだね。
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        文字としては同一なのだから区別できなくて当然、というのが日本の立場。
        たとえば、「言」の第1画は、手書きではふつう縦に書くけど活字だと
        横に書きますね。第1画が縦か横かというのはけっこう大きな違いですが、
        別々の文字と見なすべきでしょうか？日本の立場は、これを同一の文字の
        書き方が違うだけ（異体字）だとみなすものです。だからそれを受けて
        作られたJIS規格も、それを元に作られたコンピュータやOSも、第1画が
        縦と横の「言」を区別することはできません。
        ところでUnicode (ISO10646) は各国の規格の寄せ
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        ひらがなの「そ」のゆれみたいなもんだと思えばいいのでは。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  でも、同一の文字であるはずの「斉」「斎」「齋」「齊」とかはISO-2022-JP（というかJISX0208とかJISX0213）に含まれてたり、
  がちがちの原則一辺倒でもなく実用性重視なところもあるので、「くち高」「はしご高」「つち吉」「さむらい吉」についても
  実用性重視で別々のコードポイントを割り振ってしまってもいいのにと思う。
  でも、過去との互換性を考えると、やりにくいのだろうね。たとえばくち高とはしご高を区別できるJISX0213の改訂規格を作るとして、
  従来の「高」のコードポイントの扱いはどうするのか（従来と同じく、くち高とはしご高の両方を包摂する文字という解釈なのか、
  それともくち高だけを表すというふうに変更するのか。もし前者の場合、「包摂文字」「くち高」「はしご高」の3種類のコードポイントを
  作るのか）、いろいろと面倒なことになりそう。
  そういえばUnicodeでは「骨」の字がおかしくなるって言ってた人たちは、今どうしてるのだろう。
ネタにマジレス (スコア:2)

by fcp (32783) on 2012年04月01日 17時15分 (#2127683) ホームページ日記

Unicode のサロゲートペアの文字であり

Unicode の UTF-16 のことを「Unicode」って呼ぶの嫌い。
葛城市 (スコア:1)

by Egtra (38265) on 2012年03月31日 23時34分 (#2127368)

あの葛城市がこんなことに関心を持っているようなら、そもそも初めからあの字体を選ぶわけがないでしょう、と思ってしまいました。
- Re:葛城市 (スコア:2)
  
  by paku (11283) on 2012年04月01日 10時27分 (#2127492) ホームページ日記
  
  江戸川区の葛西地域からも参加表明が…あるかなぁ?
  
  シェア
  
  親コメント
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    芦屋の芦田さん [unicode.org]もぜひ。
私も参加いたします (スコア:1)

by parsley (5772) on 2012年04月01日 6時54分 (#2127439) 日記

立つ崎ですし、旧姓ははしご高なのでいろいろからんでおります。

--
Copyright (c) 2001-2014 Parsley, All rights reserved.
- Re:私も参加いたします (スコア:1)
  
  by taka2 (14791) on 2012年04月01日 10時42分 (#2127502) ホームページ日記
  
  今の/.jはUTF-8ベースだから、はしご高は髙、立つ崎は﨑とそのまま書けばいいんじゃないかな。
  でまあ、私の場合も、自分の姓がはしご高、母の旧姓が立つ崎ということで、それなりに興味がある話題なんですが、
  以前ちょっとハマッたのが、お中元/お歳暮用のネットの通販サービス。
  WebベースでサイトがUTF-8ベースだったのでおそるおそる使ってみたら、
  注文管理の見かけ上問題なかったのに、届けられた送り状では化けてました…
  #それでもやっぱり、メールはISO-2022-JP派。
  
  シェア
  
  親コメント
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    配達がネコで手打ちでゲタに変換 [togetter.com]してくれたのかもしれません
で、 (スコア:1)

by tobynamaco (42397) on 2012年04月01日 9時54分 (#2127480)

次は全国各地の「ワタナベ」さんが参加して収拾がつかなくなる予定です。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  そこに颯爽と全国の「サイトウ」さんが加わって、もはやカオスと化します。
えーと、今日は…… (スコア:1)

by Landie(GRG) (6950) on 2012年04月01日 9時55分 (#2127481) ホームページ

ですよね？
- Re:えーと、今日は…… (スコア:2)
  
  by denchu (6847) on 2012年04月01日 10時14分 (#2127488)
  
  まぁ、勝手にすればいいんじゃないかな～というのと utf-16 でメール出せば?
  と書こうと思ったけど、今日の日付を見て気づいた(^^ゞ
  
  シェア
  
  親コメント
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    以下、レス禁止
- Re:えーと、今日は…… (スコア:1)
  
  by Anonymous Coward on 2012年04月01日 10時40分 (#2127501)
  
  こういうのなら真面目な話題にも持っていけるしうまいね。
  
  シェア
  
  親コメント
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    今年はネタと解っていてもなんか実際にあってもおかしくないような話題なんで､ちょっと混乱しました
- Re: (スコア:0)
  
  by Anonymous Coward
  
  次のトピはちゃんとそれ用のアイコンになっているのに、
  こっちもそうすればいい。
つちよしと一緒にしないでくれ (スコア:1)

by chuukai (18189) on 2012年04月01日 10時57分 (#2127510) 日記

まず、漢字字体規範データベースでの検索結果を見てもらいたい。
高の検索結果 [joao-roiz.jp]
吉の検索結果 [joao-roiz.jp]
はしごだかとつちよしは同じように康煕字典にのらなかったが、「くちだか」が1例だけしかなくてほぼ「はしごだか」なのに比べて、「つちよし」と「さむらいよし」は同じ程度に出現している。
この検索結果と今日という日を考えれば、はしごだかのほうがつちよしより正しい。はしごだかのほうが偉いことは確定的に明らか。
こんなことをいうと、つちよしのやつは「昔の草書ではくちだかが出る」とかいいやがる。先に言っておこう。ステマ乙。
- Re:つちよしと一緒にしないでくれ (スコア:3, 興味深い)
  
  by numa (4467) on 2012年04月01日 12時07分 (#2127544) ホームページ日記
  「高」についていえば、
  
  - 伝統的な楷書体では、「はしご高」の形に書くのが標準だった
  - 漢字字典の権威とされる康煕字典では「くち高」の字形が使われていた
  …という状況があった。現代では康煕字典の形が標準となり、手書き文字もそれにあわせたため、「くち高」が学校で教えられることになった。
  「吉」についていえば、そもそも、横棒のどれが長いか短いかというのは、長短によって意味に違いが出る場合（「未」と「末」、「土」と「士」など）を除いて、どれを長く書いてもよかった。「吉」については、上半分が「土」だろうが「士」だろうが、意味は変わらない。だから、どう書いてもよかった。
  ただし、最近の小中学校の無能な国語教師どもが、横棒の長短や縦棒の終わりの「はね」にグダグダ文句をつけて、教科書の活字の通りに書いてないと減点するようになったので、それにあわせてこだわる人が増えただけ。
  シェア
  
  親コメント
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    ただし、最近の小中学校の無能な国語教師どもが、横棒の長短や縦棒の終わりの「はね」にグダグダ文句をつけて、教科書の活字の通りに書いてないと減点するようになったので、それにあわせてこだわる人が増えただけ。
    つまりこんなくだらないことにグダグダ文句を言った果てにUnicodeをゴミで埋め尽くそうとしてる連中は掛け算の順序を「間違えた」ら減点する連中と同類なわけだが自覚してるのかね。
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      ごみ処理場にごみを搬入してるだけでしょ。
      怒るのはピュアなUnicode信者くらい。
gmailが日本語ローカライズした日 (スコア:1)

by shesee (27226) on 2012年04月01日 13時47分 (#2127605) 日記

あのままUTF-8のまま押し切れば、今のメールクライアントのgmailへの対応ぶりを見ているとUTF-8主体に切り替わっていたんじゃないかと思う。たぶんあれが最後の機会でSMTPが死に絶える日までどうにもならない気がする。そういやUTF-9 [ietf.org]というネタがむかしあった気がする。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  メールは相手のあることなので、メジャーなものから対応を求められます。
  ISO-2022-JP のサポートがだめだったら、Gmail サービスでは日本語が使えないからと言われておしまいです。
  ケータイキャリアや、他のメールクライアントは様子見で相手にしなかったような気がします。
確か… (スコア:0)

by Anonymous Coward on 2012年04月01日 10時08分 (#2127487)

UTF-8さんは確か亡くなられていた [bogusne.ws]ような
Content-Transfer-Encoding (スコア:0)

by Anonymous Coward on 2012年04月01日 10時34分 (#2127496)

いまどきのメールサーバほぼ 8bit データを通すので大抵は UTF-8 でもかまわないのですが、すべてが通すわけではないというところに問題があります。
海外のサーバに多い印象ですが、経路のどこかに 8BITMIME を返してくれない SMTP サーバがいると、そこで quoted-printable や base64 でエンコードされて配送されるわけです。
そうすると３バイトどころか４バイト６バイトとデータ量が膨れ上がるのでいろいろ残念な思いです。
あと、古いケータイには ISO-2022-JP か Shift_JIS エンコードのメールしか受け付けないようなものがあるらしいと聞いたのですが、具体的にどの世代が該当するのかわかりませんでした。
そんなわけでサーバ内部では UTF-8 であるにもかかわらず、メールを送るときだけは ISO-2022-JP もどきに変換して送ってる私をお許しください。
# ①や～を送ってるところが「もどき」。
- Re:Content-Transfer-Encoding (スコア:2)
  
  by hiroppy (23455) on 2012年04月01日 15時54分 (#2127659)
  
  あと、古いケータイには ISO-2022-JP か Shift_JIS エンコードのメールしか受け付けないようなものがあるらしいと聞いたのですが、具体的にどの世代が該当するのかわかりませんでした。
  古い「ケータイ」ではなく「PHS」ですが，WX310KのメーラーでUTFなメールを受信すると化け化けになりますね。
  （何に対応していて，何に対応していないのかはよく分かりませんが・・・）
  
  シェア
  
  親コメント
- Re:Content-Transfer-Encoding (スコア:1)
  
  by M-FalconSky (8868) <MFalcon.Sky+slashdotNO@SPAMGmail.com> on 2012年04月01日 11時51分 (#2127538) ホームページ日記
  
  IMAPとかで変換機能があるといいんだけど、どうだろ?
  # サービスとデータ構造もそれなりに切り離しがないとあとあと大変だなと思う今日このごろ
  
  --
  M-FalconSky (暑いか寒い)
  
  シェア
  
  親コメント
RFC1468 の obsolute 化 (スコア:0)

by Anonymous Coward on 2012年04月01日 10時44分 (#2127505)

そういや真面目な話として、なんかバグがあるんじゃなかったでしたっけ？　BNF で空行の定義が抜けてるとか何とか、すごくトリビアルなものだったと思いますが。歴史的に過去のものにするにしても修正だけできないものかと。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  obsol"u"teって時点で既にバグが・・・
異体字セレクタのことだな (スコア:0)

by Anonymous Coward on 2012年04月01日 11時54分 (#2127542)

Windows7でも標準フォントのメイリオが対応していないのが痛いな
- Re: (スコア:0)
  
  by Anonymous Coward
  
  Windows 8では対応してるよ(JIS2004で字形変更された文字だけ)
異字体と似たような字との区別で思うのだが (スコア:0)

by Anonymous Coward on 2012年04月01日 17時26分 (#2127689)

英語のP（ぴー）とギリシャ文字のP（ろー）にも同一コードを割り当てないと不公平だ。
＃明日が誕生日。毎年、全世界で前夜祭だよ。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  じゃあついでにひらがなの「り」とカタカナの「リ」とか、
  カタカナの「カ」と漢字の「力」とかも同一コードにしちゃいましょう。
  - Re:異字体と似たような字との区別で思うのだが (スコア:1)
    
    by chuukai (18189) on 2012年04月01日 21時02分 (#2127750) 日記
    
    工業の「工」とエッチの「エ」も同一コードでいいよ。
    
    シェア
    
    親コメント

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

吉野家HDと高島屋が日本語UTF-8メール普及コンソーシアムを設立 More ログイン

四月莫迦ネタにマジレスカコワルイが、あえて言う (スコア:3, 興味深い)

Re:四月莫迦ネタにマジレスカコワルイが、あえて言う (スコア:1)

Re:四月莫迦ネタにマジレスカコワルイが、あえて言う (スコア:1)

Re: (スコア:0)

ISO-2022-JPの「高」 (スコア:2, 参考になる)

Re:ISO-2022-JPの「高」 (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

Re:ISO-2022-JPの「高」 (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

ネタにマジレス (スコア:2)

葛城市 (スコア:1)

Re:葛城市 (スコア:2)

Re: (スコア:0)

私も参加いたします (スコア:1)

Re:私も参加いたします (スコア:1)

Re: (スコア:0)

で、 (スコア:1)

Re: (スコア:0)

えーと、今日は…… (スコア:1)

Re:えーと、今日は…… (スコア:2)

Re: (スコア:0)

Re:えーと、今日は…… (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

つちよしと一緒にしないでくれ (スコア:1)

Re:つちよしと一緒にしないでくれ (スコア:3, 興味深い)

Re: (スコア:0)

Re: (スコア:0)

gmailが日本語ローカライズした日 (スコア:1)

Re: (スコア:0)

確か… (スコア:0)

Content-Transfer-Encoding (スコア:0)

Re:Content-Transfer-Encoding (スコア:2)

Re:Content-Transfer-Encoding (スコア:1)

RFC1468 の obsolute 化 (スコア:0)

Re: (スコア:0)

異体字セレクタのことだな (スコア:0)

Re: (スコア:0)

異字体と似たような字との区別で思うのだが (スコア:0)

Re: (スコア:0)

Re:異字体と似たような字との区別で思うのだが (スコア:1)