パスワードを忘れた? アカウント作成
2399727 journal
インターネット

targzの日記: [4月1日ネタ]「吉野家HDと高島屋が日本語UTF-8メール普及コンソーシアムを設立」 66

日記 by targz

(ネタバレ防止改行)
|
|
|
|
|
|
|
|
|
|
|
|
部門名: 一方、村井純は「.junet」ドメインを計画した

株式会社吉野家ホールディングス株式会社高島屋は、日本語メールでの UTF-8 使用を推進する団体として「日本語UTF-8メール普及コンソーシアム」の設立に合意した。
両社の正式名表記は「吉」や「高」ではなく、「つちよし」と呼ばれる吉や「はしごだか」と呼ばれる高の字を用いる。しかし、これらの文字は Unicode では表示が可能であるものの、現在の日本語メールで主流となっている ISO-2022-JP では表示させることができない。したがって、発行しているメールマガジンでは一般的な「吉」や「高」の文字を使わざるを得ない状況となっている。

現在のパソコンや携帯端末は UTF-8 を扱える OS を採用していることが多く、搭載している MUA も UTF-8 対応であることが多い。もはや、UTF-8 エンコーディングのメールを送信しても閲覧できる環境が整っていると言える。両社は、日本語 UTF-8 メールならば、吉野家の吉や高島屋の高を本来の字体で使うことができるため、可能ならば UTF-8 エンコーディングを使用したい意向だ。

しかし、これらの文字は Unicode のサロゲートペアの文字であり、UTF-8 では4バイトになってしまう。このため、これらの文字を使うためには、単なる Unicode 対応ではなく、サロゲートペアおよび4バイトUTF-8への対応が必要となる。そこで、「日本語UTF-8メール普及コンソーシアム」の設立によって、サロゲートペアの Unicode 文字および4バイトUTF-8を扱える環境を普及することとした。

  • UTF-8 エンコーディングの日本語メールを「日本語UTF-8メール」と名付けて普及を図る。
  • 両社が発行するメールマガジンにおける UTF-8 化する。
  • MySQL や PHP, Perl など LAMP 環境における4バイト UTF-8 対応設定を啓発する。
  • 日本語インターネットメールに UTF-8 を使用すべきと規定した RFC を策定する。(RFC1468 の obsolute 化)

なお、東京都葛飾区、奈良県葛城市と同県北葛城郡も本コンソーシアムへの加盟を検討している模様である。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • UTF8を普及させようという目的ならば賛成する。だが、単に「」(つちよし)や「髙」が使いたいだけならお引き取り願う。

    「」(つちよし)の上部「土」になっていたり「髙」が存在するのは手書きの話であって、活字と手書きは歴史そのものが違う。これは「木」の縦棒がはねている字形を異体字として認めないのと同じ理屈。意味上の差異がないにもかかわらず字形に拘泥する輩はまず書道を学べ。

    # 海外でこれに似た例ってあるの?
    # 例えば、印刷された自分の名前を見たGeorgeさんが、"George"のgは double-story [mac.com] のgだ。わしゃ昔からそう書いたきた
    # と抗議した例とか。

    ※つちよしはプレビュー時に表示されなかったので括弧書きで補足した。

  • by z80a (45168) on 2012年04月01日 9時53分 (#2127478)

    ISO-2022-JPの「高」はくち高・はしご高の区別(異体字の区別)はありませんよね。
    いろんな異体字を含む同一の文字としての「高」に対してコードが割り振られてるわけで。

    現在主流のOSやフォントが「高」に対してくち高を割り当てているのは、たまたまそうなってるだけ。

    そんなこと言い出したら「うちは変体仮名でないとだめ」とか「絵文字でないとだめ」とか
    きりがない。(「かまわぬ」とか?)

    • by Anonymous Coward on 2012年04月01日 10時37分 (#2127500)

      口高、はしご高を同一文字としてしまっている、言語学的に不備があり、実用上も不便のあるコード体系ですよね、ISO-2022-JP。

      そんなこと言い出したら、日本語はすべて英語アルファベットを用いてローマ字書きでいいとか
      きりがない。(「かまわぬ」とか?)

      親コメント
      • by Anonymous Coward

        いえいえ、くち高とはしご高は同一の文字です。

        • by Anonymous Coward

          同一じゃないでしょ.異体字の話をしてるんですよ?

          • by Anonymous Coward on 2012年04月01日 13時22分 (#2127590)

            同じ文字に属する別の異体字です。

            活字でよくある、丸の上に横棒が伸びてきている「a」と、
            手書きでよくある、丸の上に横棒が伸びてきていない「a」は、
            別の異体字ですが、同じ文字です。

            親コメント
        • by Anonymous Coward

          日本語で、何をもってひとつの文字とするのかを定義している物、場所、規格ってあるんでしょうか?
          常用漢字?国語審議会みたいのが決めてる?
          本気で知らないので、教えてください。

          • by Anonymous Coward

            規格はいろいろあるようですが1978年に制定されて1997年に「何をもってひとつの文字とするのかを定義」するための基準(包摂という)が明確化された
            JIS X 0208という日本工業規格を紹介します。

            JIS X 0208
            http://ja.wikipedia.org/wiki/JIS_X_0208 [wikipedia.org]

            JIS X 0208の1997年改定でどのような字体差を含み包むかが明示され、公開されています。
            http://www.aozora.gr.jp/hosetsu_kijyun/0208-6.6.3 [aozora.gr.jp]

    • by Anonymous Coward

      たまたまじゃねぇよ。常用漢字表の字体に合わせてあるんだよ。

      • by Anonymous Coward

        > たまたまじゃねぇよ。常用漢字表の字体に合わせてあるんだよ。

        合わせたのはフォント作者の自由意志によるものでしょう?
        はしご高で作っても規格に違反しない。

        • by Anonymous Coward

          ガラパゴス規格ではそうだね。
          国産の規格なのに常用漢字表の通用字体とそうじゃない字体も区別できないんだね。

          • by Anonymous Coward

            文字としては同一なのだから区別できなくて当然、というのが日本の立場。
            たとえば、「言」の第1画は、手書きではふつう縦に書くけど活字だと
            横に書きますね。第1画が縦か横かというのはけっこう大きな違いですが、
            別々の文字と見なすべきでしょうか?日本の立場は、これを同一の文字の
            書き方が違うだけ(異体字)だとみなすものです。だからそれを受けて
            作られたJIS規格も、それを元に作られたコンピュータやOSも、第1画が
            縦と横の「言」を区別することはできません。

            ところでUnicode (ISO10646) は各国の規格の寄せ

          • by Anonymous Coward

            ひらがなの「そ」のゆれみたいなもんだと思えばいいのでは。

    • by Anonymous Coward

      でも、同一の文字であるはずの「斉」「斎」「齋」「齊」とかはISO-2022-JP(というかJISX0208とかJISX0213)に含まれてたり、
      がちがちの原則一辺倒でもなく実用性重視なところもあるので、「くち高」「はしご高」「つち吉」「さむらい吉」についても
      実用性重視で別々のコードポイントを割り振ってしまってもいいのにと思う。

      でも、過去との互換性を考えると、やりにくいのだろうね。たとえばくち高とはしご高を区別できるJISX0213の改訂規格を作るとして、
      従来の「高」のコードポイントの扱いはどうするのか(従来と同じく、くち高とはしご高の両方を包摂する文字という解釈なのか、
      それともくち高だけを表すというふうに変更するのか。もし前者の場合、「包摂文字」「くち高」「はしご高」の3種類のコードポイントを
      作るのか)、いろいろと面倒なことになりそう。

      そういえばUnicodeでは「骨」の字がおかしくなるって言ってた人たちは、今どうしてるのだろう。

  • Unicode のサロゲートペアの文字であり

    Unicode の UTF-16 のことを「Unicode」って呼ぶの嫌い。

  • by Egtra (38265) on 2012年03月31日 23時34分 (#2127368)

    あの葛城市がこんなことに関心を持っているようなら、そもそも初めからあの字体を選ぶわけがないでしょう、と思ってしまいました。

  • by parsley (5772) on 2012年04月01日 6時54分 (#2127439) 日記

    立つ崎ですし、旧姓ははしご高なのでいろいろからんでおります。

    --
    Copyright (c) 2001-2014 Parsley, All rights reserved.
    • 今の/.jはUTF-8ベースだから、はしご高は髙、立つ崎は﨑とそのまま書けばいいんじゃないかな。
      でまあ、私の場合も、自分の姓がはしご高、母の旧姓が立つ崎ということで、それなりに興味がある話題なんですが、
      以前ちょっとハマッたのが、お中元/お歳暮用のネットの通販サービス。
      WebベースでサイトがUTF-8ベースだったのでおそるおそる使ってみたら、
      注文管理の見かけ上問題なかったのに、届けられた送り状では化けてました…

      #それでもやっぱり、メールはISO-2022-JP派。

      親コメント
  • by tobynamaco (42397) on 2012年04月01日 9時54分 (#2127480)
    次は全国各地の「ワタナベ」さんが参加して収拾がつかなくなる予定です。
    • by Anonymous Coward

      そこに颯爽と全国の「サイトウ」さんが加わって、もはやカオスと化します。

  • ですよね?
    • by denchu (6847) on 2012年04月01日 10時14分 (#2127488)

      まぁ、勝手にすればいいんじゃないかな~というのと utf-16 でメール出せば?
      と書こうと思ったけど、今日の日付を見て気づいた(^^ゞ

      親コメント
    • by Anonymous Coward on 2012年04月01日 10時40分 (#2127501)

      こういうのなら真面目な話題にも持っていけるしうまいね。

      親コメント
      • by Anonymous Coward

        今年はネタと解っていてもなんか実際にあってもおかしくないような話題なんで、ちょっと混乱しました

    • by Anonymous Coward

      次のトピはちゃんとそれ用のアイコンになっているのに、
      こっちもそうすればいい。

  • まず、漢字字体規範データベースでの検索結果を見てもらいたい。
    高の検索結果 [joao-roiz.jp]
    吉の検索結果 [joao-roiz.jp]

    はしごだかとつちよしは同じように康煕字典にのらなかったが、「くちだか」が1例だけしかなくてほぼ「はしごだか」なのに比べて、「つちよし」と「さむらいよし」は同じ程度に出現している。

    この検索結果と今日という日を考えれば、はしごだかのほうがつちよしより正しい。はしごだかのほうが偉いことは確定的に明らか。
    こんなことをいうと、つちよしのやつは「昔の草書ではくちだかが出る」とかいいやがる。先に言っておこう。ステマ乙。

    • 「高」についていえば、

      • - 伝統的な楷書体では、「はしご高」の形に書くのが標準だった
      • - 漢字字典の権威とされる康煕字典では「くち高」の字形が使われていた

      …という状況があった。現代では康煕字典の形が標準となり、手書き文字もそれにあわせたため、「くち高」が学校で教えられることになった。

      「吉」についていえば、そもそも、横棒のどれが長いか短いかというのは、長短によって意味に違いが出る場合(「未」と「末」、「土」と「士」など)を除いて、どれを長く書いてもよかった。「吉」については、上半分が「土」だろうが「士」だろうが、意味は変わらない。だから、どう書いてもよかった。

      ただし、最近の小中学校の無能な国語教師どもが、横棒の長短や縦棒の終わりの「はね」にグダグダ文句をつけて、教科書の活字の通りに書いてないと減点するようになったので、それにあわせてこだわる人が増えただけ。

      親コメント
      • by Anonymous Coward

        ただし、最近の小中学校の無能な国語教師どもが、横棒の長短や縦棒の終わりの「はね」にグダグダ文句をつけて、教科書の活字の通りに書いてないと減点するようになったので、それにあわせてこだわる人が増えただけ。

        つまりこんなくだらないことにグダグダ文句を言った果てにUnicodeをゴミで埋め尽くそうとしてる連中は掛け算の順序を「間違えた」ら減点する連中と同類なわけだが自覚してるのかね。

        • by Anonymous Coward

          ごみ処理場にごみを搬入してるだけでしょ。
          怒るのはピュアなUnicode信者くらい。

  • あのままUTF-8のまま押し切れば、今のメールクライアントのgmailへの対応ぶりを見ているとUTF-8主体に切り替わっていたんじゃないかと思う。たぶんあれが最後の機会でSMTPが死に絶える日までどうにもならない気がする。そういやUTF-9 [ietf.org]というネタがむかしあった気がする。
    • by Anonymous Coward

      メールは相手のあることなので、メジャーなものから対応を求められます。
      ISO-2022-JP のサポートがだめだったら、Gmail サービスでは日本語が使えないからと言われておしまいです。
      ケータイキャリアや、他のメールクライアントは様子見で相手にしなかったような気がします。

  • by Anonymous Coward on 2012年04月01日 10時08分 (#2127487)

    UTF-8さんは確か亡くなられていた [bogusne.ws]ような

  • by Anonymous Coward on 2012年04月01日 10時34分 (#2127496)

    いまどきのメールサーバほぼ 8bit データを通すので 大抵は UTF-8 でもかまわないのですが、すべてが通すわけではないというところに問題があります。
    海外のサーバに多い印象ですが、経路のどこかに 8BITMIME を返してくれない SMTP サーバがいると、そこで quoted-printable や base64 でエンコードされて配送されるわけです。
    そうすると 3バイトどころか4バイト6バイトとデータ量が膨れ上がるのでいろいろ残念な思いです。

    あと、古いケータイには ISO-2022-JP か Shift_JIS エンコードのメールしか受け付けないようなものがあるらしいと聞いたのですが、具体的にどの世代が該当するのかわかりませんでした。

    そんなわけでサーバ内部では UTF-8 であるにもかかわらず、メールを送るときだけは ISO-2022-JP もどきに変換して送ってる私をお許しください。

    # ①や~を送ってるところが「もどき」。

  • by Anonymous Coward on 2012年04月01日 10時44分 (#2127505)

    そういや真面目な話として、なんかバグがあるんじゃなかったでしたっけ? BNF で空行の定義が抜けてるとか何とか、すごくトリビアルなものだったと思いますが。歴史的に過去のものにするにしても修正だけできないものかと。

    • by Anonymous Coward

      obsol"u"teって時点で既にバグが・・・

  • by Anonymous Coward on 2012年04月01日 11時54分 (#2127542)

    Windows7でも標準フォントのメイリオが対応していないのが痛いな

    • by Anonymous Coward

      Windows 8では対応してるよ(JIS2004で字形変更された文字だけ)

  • by Anonymous Coward on 2012年04月01日 17時26分 (#2127689)

    英語のP(ぴー)とギリシャ文字のP(ろー)にも同一コードを割り当てないと不公平だ。

    #明日が誕生日。毎年、全世界で前夜祭だよ。

typodupeerror

物事のやり方は一つではない -- Perlな人

読み込み中...