パスワードを忘れた? アカウント作成
6578495 story
日記

Microsoft Office で約 58,000 字の異体字が利用可能な仕組み発表 32

ストーリー by reo
外字登録の悪夢 部門より

maia 曰く、

異体字というと、ユニコードの数値文字参照や、Adobe のアプリケーションの字形選択などである程度利用可能だったが、INTERNET Watch の記事マイナビニュースの記事によれば、日本マイクロソフトから、約 58000 字が利用可能な仕組み「Unicode IVS Add-in for Microsoft Office」が発表された (Microsoft 最新情報より) 。

この 58,000 字の異字体は経済産業省委託事業「文字情報基盤構築に関する研究開発事業」により作成された「IPAmj 明朝フォント』を利用する。アドインはマイクロソフトの運営するオープンソースポータル「CodePlex」からダウンロードできる。元来は自治体など特殊? な用途向けの話のようである。環境は Windows Vista (32 ビット、64 ビット) 、Windows 7 (32 ビット、64 ビット) 、Microsoft Office 2007、Microsoft Office 2010。また Windows 8、Windows Server 2012 は標準で対応しており、対応フォントをインストールするだけで利用可能になる。IME の登録は別途必要だが、イーストで有償版「IVS Add-in for Microsoft Office」が用意されている。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • 部門名は皮肉? (スコア:2, 参考になる)

    by Anonymous Coward on 2012年11月14日 14時07分 (#2272084)

    > 外字登録の悪夢 部門より
    IVSによる異体字の制御によって、自治体の戸籍上の漢字の管理などにおいて逆に外字が不要になる(本音はなったらいいな)はずなので、部門名は誤謬を招くかもしくは皮肉に感じます(´・ω・`)

    IVSは数年前から実装されているので最悪バイナリエディタなどで入力は可能です。
    ただ、有償サービスにしたところで、結局あの異体字間違い探しゲームをしなくてはならないのは不憫でなりません。
    # 標準の字と異体字の差分を赤く表示したりして直感的に選別できないものですかね。。。

    ## 「58,000 字の異字体」は字数だといっているので、異字体というより異体字の方がしっくりくるのですが。。。

    • by Anonymous Coward on 2012年11月14日 14時56分 (#2272134)

      皮肉というより、単純純粋に事実を評価しているだけの気もしますよ。<部門
      unicode -> 文字列参照でやり過ごしていた既存の部分を、今度は逆に文字列参照 -> unicode IVSに変換、っていう作業が発生するわけで。
      その分の金と時間は誰が割を食うのかという突込みである、と僕は受け止めました。

      既存部分についてはやらなくてもいいよ、って言うのはナシね。それこそ悪夢。マジ悪夢だからやめて。

      親コメント
      • by Anonymous Coward

        なるほど。移行作業に注目するとおっしゃるとおり悪夢ふたたびですね。
        私の指摘は、IVSに移行したら外字ローカルルールがなくなってうれしい(凄い字の人がとなり町に引っ越しても楽できる)というポジティブ評価が部門名にないことが発端です。

        まあもっとも、IVSに移行したところで、「○◯先生の次回作に乞うご期待!」並の終わってない感があるとは予想されますが(´・ω・`)

  • by Anonymous Coward on 2012年11月14日 13時43分 (#2272066)

    元からWindows7 x64+花園フォント+emacs24環境で問題なく使えてます。
    俺は使ってないけどlookupは積極的にIVSを利用してるとか。

    OSだけでなくアプリ側の対応も必要なので今回Office用を出したって事ですね。

  • by Anonymous Coward on 2012年11月14日 14時10分 (#2272088)

    入力だけならコピペでもいいのだけど、
    (なにも対策してもらえないと)検索が実質不可能になって終わりそう。

    Windows API が拡張されるわけではないよね?

    • Re:検索は? (スコア:2, 参考になる)

      by Anonymous Coward on 2012年11月14日 14時16分 (#2272096)

      一部で話題の正規化うんぬんのお話をよむとよいかも。
      よろしければ下記togetterでもどぞ。
      IVSと正規化について [togetter.com]
      正規化・互換漢字・IVS [togetter.com]

      親コメント
      • Re:検索は? (スコア:2, すばらしい洞察)

        by Anonymous Coward on 2012年11月14日 14時53分 (#2272129)

        せっかくココにいるならまずyasuoka先生の日記を読むのが先だろう。

        親コメント
      • by Anonymous Coward

        Unicode 正規化では、検索問題は解決しませんよ。

      • by Anonymous Coward

        > ...まずyasuoka先生の日記を読むのが先だろう。
        ごもっともです。
        (先生の日記の有無どうこうよりスラドに日記があることすら忘れてました。)

        > Unicode 正規化では、検索問題は解決しませんよ。
        これもごもっともで、私も解決するとは思ってないです。
        (なにも対策してもらえないと)の議論として例のtogetterを挙げました。
        こっちのほうがよかったですかね。。。
        http://yanok.net/2011/01/java-6-ivs.html [yanok.net]

  • by Anonymous Coward on 2012年11月14日 14時51分 (#2272126)

    マイクロソフトは、がんばったな。

    日本の漢字は、「JIS2004+印刷標準字体+常用漢字2010」がベースなはず。

    Windowsだと、OpenTypeすら扱えないアプリケーションもほんとに多い。。
    Opentype書体も、JIS2004ベースがまだまだ少ない。

    異体字なんて、誤字の派生だから無くなっても良い気がします。

    • >異体字なんて、誤字の派生だから無くなっても良い気がします。

      趣旨には同意できなくもないが、さすがに言い過ぎだろう。文字数で云えば誤字とその派生が圧倒的だろうが、クレームの件数は新字・旧字問題。

      印刷屋や役所に文句をつけるヤツの多くは、いわゆる旧字が正しいという方。人名のような固有名詞は第三者が正誤を付けるものじゃないから困る。

      それに文字数では誤字とその派生が圧倒的といっても、それなりに歴史を持ち、定着している物も多いのが現実でもある。PCの普及で、かなり根絶されてきたとは思うが、ここで大量の異体字に対応されると、また、逆戻りに。

      親コメント
      • by Anonymous Coward
        漢字の正誤は古来より皇帝という第三者が勝手に決めるモンだと思ってたが。
        # 皇帝が当事者のときは諱だから臣下の方が一方的に使えなくなるだけ。
    • by Anonymous Coward on 2012年11月14日 16時24分 (#2272182)

      >異体字なんて、誤字の派生だから無くなっても良い気がします。

      それは使ってない人だから言えること。
      象形文字からすれば今の漢字全て誤字だろうが。

      #Vで代用してたけどややこしいから丸く書いて別の文字(U)にしちゃえ。
      #Uを続けて書いてたら繋がっちゃった。いいや「W」で一文字にしちゃえ。

      親コメント
      • by Anonymous Coward on 2012年11月14日 16時51分 (#2272201)

        別ACですけど、ソースはないですが、異体字にはただ点の場所が違う、交点でとびでるかどうかなどの差異だけで分類されているものが多く、極論を言えば「誤字の派生」というのは現実論として正しい方向性かと思います。全肯定はできないにしても。

        ただ、肯定できない部分の一端として、漢字の運用には、省略されたり、創作されたりした歴史があり、そういう意味からはV/U/Wの例えは的を射ていると思います。

        ところで、個人的な興味ですが、増えたのと逆にソーン(th:pの縦棒が長いの)やロングエス(fみたいなの)はなぜ使われなくなってしまったのでしょうかね。
        (ソーンなんて二人称代名詞にもつかわれてたのに。。。)
        # すみません。完全にオフトピです。。。

        親コメント
        • by Anonymous Coward on 2012年11月14日 18時13分 (#2272259)
          > ところで、個人的な興味ですが、増えたのと逆にソーン(th:pの縦棒が長いの)やロングエス(fみたいなの)はなぜ使われなくなってしまったのでしょうかね。

          この前のNHKの受け売りですが、表意文字である漢字では、漢字そのものが意味を持ってしまうので、一度確立してしまうと、他では代用できないという書き手の気持ちがあるんでしょうが、アルファベットでは所詮、表音なので、音が同じで他で代用できるならそれでもいいやってことになるのではないでしょうか。
          親コメント
          • by Anonymous Coward

            オフトピにレスありがとうございます。

            > ...音が同じで他で代用できるならそれでもいいやってことに...
            やっぱりそんな感じですかねえ。。。
            no offenceですが、表音だとC/K/Qのカ音仁義なき戦いとか、、、C(H)の浮気っぽさとか、、、つか、GがJでJがGとかいってたらZがでてきてもうQとかYとかギリシャ語由来はもうアレしてよ的な妄想をしてしまいます(´;ω;`)

            thに関しては、ソース不明ですが仏語の影響で消滅した説(彼らはthéと書いて"テ"と読みます。意味は音どおり紅茶です)などを聞いたことがあったので質問してみました。

            オフトピなのでこのへんにしときます。。。

            • by Anonymous Coward

              音に関しても昔の方が複雑で(母音の種類とか)、時代が下るにしたがって簡略化
              されるというのが不思議です。複雑化するならわかるけど。
              なぜ最初に複雑で、だんだん簡略化するのかな?

              • by Anonymous Coward

                口動かすのが面倒とか、子供や異民族に細かい差異を教えるのが面倒になったとかだったりして

              • by Anonymous Coward

                記録するための文字はある程度共通であっても人対人の生の交流が少なかった時代から、交流が増え小さな集団から大きな集団になる過程で、方言が共通化されていったとかじゃないのかな。

              • by Anonymous Coward

                もともと「文字」は社会的・知識的に高い人々だけのものだったため、ある時代まで成熟の過程で複雑化し、
                その後、時代が下がると共に普及層が増え使用者が増えることによる取捨選択や効率化などの平滑化が発生したのではないか、
                というのが個人的な推測です。
                例えば、ひらがなに関しては江戸時代末期までにかなり数が減ったと言われています。
                (発音種類の減少にともなうものから 変体仮名 [wikipedia.org]のバリエー

  • by Anonymous Coward on 2012年11月14日 13時45分 (#2272068)

    五萬悦涙目~?

    「パソコンで入力できるんだから」の旗の元に暴れるオッサンが増えそうだなぁ。

  • by Anonymous Coward on 2012年11月14日 14時08分 (#2272087)

    Unicode誕生の頃の統合漢字導入を根に持つ人々からの攻撃を受けて、Unicodeにもこんな仕組みができてしまいましたが、
    ほんとうに実装しちゃうというのもすごいね。

    一般人には使いこなせないな。

  • by Anonymous Coward on 2012年11月14日 16時01分 (#2272163)

    これで台湾式の「次」(⿰二欠)は入力できるのだろうか。

    #と思ったが、IVDには無いようなので入力できなさそう。

  • by Anonymous Coward on 2012年11月14日 16時06分 (#2272164)

    > IME の登録は別途必要だが、イーストで有償版「IVS Add-in for Microsoft Office」が用意されている。
    これはどういう意味なの?
    なんかそのまま読むとイーストの有償版「IVS Add-in for Microsoft Office」でIME の登録が別途必要というふうに読めるけど、
    > 日本マイクロソフトの「Unicode IVS Add-in for Microsoft Office」は無償だけどIMEの登録が別途必要。
    > だけど、イーストからIMEの登録もやってくれる「IVS Add-in for Microsoft Office」が有償販売される。
    ということが言いたいの?

    IME の登録が具体的にどういうことなのかどこにも説明がないけどこれは意図的なハードルなんですかね。
    「Unicode IVS Add-in for Microsoft Office」と「IVS Add-in for Microsoft Office」の違いもよく分からないし。

    • by Anonymous Coward on 2012年11月14日 16時16分 (#2272174)

      違いは http://www.est.co.jp/ivs/office/ [est.co.jp] に書かれていた。
      無償版もイーストが作ったものなのか?

      親コメント
    • by Anonymous Coward

      表示はできるけど、入力するには…ってことじゃないの?

    • by Anonymous Coward

      字があっても変換できなきゃ使いにくい
      そゆことさ

      変換出来ても使いにくいけどねー
      # 老眼だと見えないよ

      • by Anonymous Coward on 2012年11月14日 18時44分 (#2272289)

        日本マイクロソフトもメンバーとして参加するIVS技術促進協議会が2013年1月より、IVSに対応したMicrosoft IME拡張辞書を無償提供予定だというから、それが出るまで待ってもいいかもしれない。

        親コメント
      • by Anonymous Coward

        ヶ [全]カタカナ(箇か, こ)[小]
        って風に出てくればわかるんじゃない?

        • by Anonymous Coward

          出るためには自力で登録しなくちゃならないだろ?

        • by Anonymous Coward

          ?それだと、たとえば邉の字の場合こんなふうにだすってことですか?(下記参考)
          http://d.hatena.ne.jp/NAOI/20070910 [hatena.ne.jp]
          (左のグリフはダミーです)

          邉 [しんにょう点 2つ,右上の要素の横画 接触,右上の要素 自,右上の要素の縦画と冠 非接触,ウカンムリかワカンムリ ワカンムリ,冠の下 八,CID=6930]
          邉 [しんにょう点 2つ,右上の要素の横画 非接触,右上の要素 自,右上の要素の縦画と冠 非接触,ウカンムリかワカンムリ ワカンムリ,冠の下 八,CID=13407]
          邉 [しんにょう点 1つ,右上の要素の横画 接触,右上の要素 白,右上の要素の縦画と冠 接触,ウカンムリかワカンムリ ワカンムリ,冠の下 ハ,CID=14241]
          ...
          書いてても違いがよくわからなく

          • by Anonymous Coward

            ペンタブレットとかあるんだから書けばいいじゃん

            # なんだか360度回ってしまった気がする

typodupeerror

開いた括弧は必ず閉じる -- あるプログラマー

読み込み中...