パスワードを忘れた? アカウント作成
15470718 story
ビジネス

非漢字圏の開発者にグリフの違いと重要性を解説するウェブページ 78

ストーリー by nagazou
英語圏の人から見たら同じじゃんと思うだろうけども 部門より
アプリケーションや製品マニュアルなどで日本語が使われているのに、漢字が中国のものになっている例はよく見かける。しかも中国語圏であっても簡体字と繁体字で漢字表記に違いがある。こうした差を非漢字圏の開発者に伝えることはなかなか難しいものがある。「Your Code Displays Japanese Wrong」はそんな日本語の漢字表記について英語で説明したサイト(GIGAZINE)。

このサイトでは、こうした文字の違いは大きなものだと指摘、簡体字混じりの日本語表記は、日本語母語話者にこの開発者は言語について気にかけていないと感じさせてしまうと警告している。サイトではウェブ開発とゲーム開発で、原因となる文字セットの変更方法も記載されている。なお同サイトの制作者は日本人エンジニアの井口健治さんだそうだ。
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by simon (1336) on 2021年11月02日 14時06分 (#4144366)

    大阪の「阪」が中国語フォントでも気にせずに広報に使っている市役所とか政党があったりする

    https://twitter.com/oneosaka/status/1361909712611016710 [twitter.com]
    https://twitter.com/osakacity_koho/status/1156842977584488448 [twitter.com]

    まあ、適当なデザイン事務所に発注したらそこが中国のデザイナーに丸投げしたとかそういう感じなのかなコレって

    • さすがにデザインじゃねの…かなぁ…

      親コメント
    • by Anonymous Coward

      もしかして:大阪は日本ではない

    • by Anonymous Coward

      そうは言っても「へ」と「ヘ」とか「カ」と「力」とか日本人でも気づかないのはいくらでもある

      • by Anonymous Coward

        以前、漢数字の二がカタカナの二になっていてデータ取り込み時にエラーが発生して
        原因調べるのに苦労した記憶がある。

        • by Anonymous Coward

          でもこれ、打ってる側も気づけないんですよね
          どちらも読みが「に」だから、変換できてしまうし
          ましてや OCR が誤読なんてしていたら、手の打ちようがない

      • by Anonymous Coward

        カタカナの単語がアプリの検索でヒットしないという同僚がいた。
        入力する様子を見ていたら、「シート」と入力すべきところを「シ-ト」といった具合に、長音をテンキーで入力していた。

    • by Anonymous Coward

      逆パターンで大阪メトロの案内掲示は繁体簡体にしかない字だけ中国語フォント(明朝系?)でそれ以外は日本語ゴシックという製作者の感性を疑う逸品もあったり。

  • by oni-giri.rice (49266) on 2021年11月02日 13時54分 (#4144352) 日記

    > 簡体字混じりの日本語表記は、日本語母語話者にこの開発者は言語について気にかけていないと感じさせてしまう

    感じさせるというか、正しく気にかけてないんだと思うけれど、
    非漢字圏の人がアウトプットを見て「文字セットが合ってない」と認識することは可能なんだろうか。

    • by 7743 (11762) on 2021年11月02日 14時43分 (#4144411)

      今時みんなUTF-8使ってるんだから、表面上の文字セットはUnicode文字セットだよ。
      ストーリーが「文字セット」って言ってるけどグリフセットの間違いでしょ。

      親コメント
      • by Anonymous Coward on 2021年11月02日 15時30分 (#4144466)

        記事より

        そもそも日本語の漢字と簡体字と繁体字が混同されてしまいがちなのは、Unicodeが設計された時に、文字セットのサイズを小さくするために中国語・日本語・韓国語で使われる同等の漢字には同等のコードポイントが与えるUnihanが定められたためです。「刃」は日本語の漢字と簡体字と繁体字と韓国語の漢字でそれぞれ見た目が異なりますが、Unicode上では同じコードポイントを与えられており、レンダリングの時に選択した文字セットに応じてふさわしい漢字を表示する仕組みです。

        つまり、日本語に翻訳しているのに簡体字や繁体字が表示されてしまう現象の多くは、文字セットを日本語に設定していないことが原因。デフォルトだと簡体字が文字セットに設定されてしまうことが多いので、文字セットを日本語に設定していないと「日本語表記なのに漢字が簡体字表記になる」ということが起こるわけです。

        文字セットが未設定で結果として簡体字が選ばれ、その設定でフォント(グリフ)を処理してしまうのが原因ということでいいのかな?
        でも私も文字セットはUnicode、フォント(グリフ)はどこぞの言語を指定って認識だったので、文字セットが云々と言われると違和感ありますね。

        親コメント
        • by Anonymous Coward on 2021年11月02日 16時18分 (#4144530)

          > でも私も文字セットはUnicode、フォント(グリフ)はどこぞの言語を指定って認識だったので、

          原文でもまさにこの通りに記載されているように読めますね。

          > 文字セットが云々と言われると違和感ありますね。

          この「文字セット」の使い方は単に GIGAZINEの文章が変(というか未定義の使い方)なだけだと思います。

          親コメント
    • by Anonymous Coward

      最低でもあなたがロシアとブルガリアのキリル文字を区別するのと同じくらいは難しいんじゃないだろうか。(要するに無理)

      • by Anonymous Coward

        表示されてればマシな方で、いわゆる豆腐状態になってることも珍しいわけじゃないから
        無理だし気にもしてない(市場規模も的にも)気にする予定もないってところでしょうか

  • by Anonymous Coward on 2021年11月02日 14時34分 (#4144397)

    ιҭ wѳuld bє lѳѳκιng sѳmєҭЋιng lικє ҭЋιs.

    コレいいね。

    • by Anonymous Coward

      そのデザインがleetのようにある程度の一般化して、日本語に中国の漢字混ざってても読めるだろ別にいいんじゃね?となる未来

      • by qwerty (20776) on 2021年11月02日 15時54分 (#4144500) 日記

        そこまで気にしない人たちならリガチャとかも実装されないし
        プロポーショナルフォントなんて不要で等幅フォントのままでもいいやろ。

        そうじゃないってことは英語ユーザは気になる人が多いって事。
        それと同じで日本語ユーザだって気にするわけ。
        どっちのユーザも気にしない人はもちろんいるというだけ。

        --
        [Q][W][E][R][T][Y]
        親コメント
      • by Anonymous Coward

        海外版ギャル文字みたいなものが成立するのか

    • by Anonymous Coward

      結構前に海外でPC支給されたとき、環境にIME自体が存在しなくてダイレクト入力で
      ネイティブに比べて日本語は入力の手間暇にかかるコストがスゲーなと体感した
      その分の表現力はあると思っているけれど、世界と勝負するのは別だからねぇ。

      • by Anonymous Coward

        その代わりスマートデバイスでの入力は日本語が有利と言われていたような

  • by Anonymous Coward on 2021年11月02日 14時09分 (#4144369)

    同じ文字に割り当てよう!

  • by Anonymous Coward on 2021年11月02日 14時14分 (#4144375)

    注意喚起なぞしなくていい
    偽造品の識別に役に立ってるから。
    # メールでも変な日本語/文字セットで注意する一助になってる

  • この知識が詐欺業者にまで広く知られてしまうと、こちらが見分けにくくなって困るかも。

    • フィッシング詐欺犯はわざと突っ込みどころがあるサイトにしてるんですよ。それでも引っかかる馬鹿を選別するために。うっかり完璧な偽物を作ってITリテラシーがある人も引っ掛けてしまうと泣き寝入りしてくれなくて面倒なことになる可能性が高い。

      親コメント
    • by Anonymous Coward

      詐欺をしていないまっとうな業者まで間違っていたら、結局区別がつかないのでは?

      • by Anonymous Coward

        間違っていたらまっとうな業者じゃないんですよ
        まっとうな業者は、言われなくてもちゃんとコストを掛けてちゃんとしている

        • by Anonymous Coward

          日本語キーボードで変換キーの右横が「カ夕カナ(カゆうカナ)」になってるかもな

          • by Anonymous Coward

            ま、そんなのならご愛嬌ですね。
            # いまキーボードの裏見たらMADE IN JAPANだったよ(topre)

    • by Anonymous Coward

      最近のフィッシングキットはオリジナルのサイトをほぼ完コピするから、どのみちグリフで見分けるのは難しいね
      リバースプロキシでも使ってんのかな

    • by Anonymous Coward

      一昔前には「貴様メール」など笑いのネタにもなったが、今、そんな初歩的な間違いはもうない。
      詐欺業者も進歩しているのだ。

      • by Anonymous Coward

        適当なドメイン取ってフィッシングすることから何も進化できないじゃん

  • by Anonymous Coward on 2021年11月02日 14時33分 (#4144395)

    In short, from a native Japanese eye, yѳur ҭєxҭ lѳѳκs κιnd ѳf lικє ҭЋιs.
    中華フォントってそこまで違和感ないでしょ。
    your te☓t looκs κιnd of lικe thιs
    アルファベットネイティブの感覚なんて知らんが、せいぜいこのレベルでは。

  • by Anonymous Coward on 2021年11月02日 15時34分 (#4144470)

    HTMLでもテキストでも良いんだけど、Unicode文字列中に日本語を意図する部分と簡体字を意図する部分があっても、Unicode規格の範疇ではそれらを区別できないんだよね。
    HTMLでlang属性使っても、そのHTMLのソースを扱う時の表現は、ワープロ的に部分毎に変わってくれたりはしない。
    SNSやらでも普通に、一つのメッセージに「会話を構成する主な言語」と「人名など別言語での本来の表記を尊重したい部分」が混ざったりするだろうけれど、そういう混在コンテンツの捉え方はどうなんだろうなあ。

    • by Anonymous Coward

      こういうことですかね?

      <p lang="ja">刃直海角骨入</p>
      <p lang="zh-tw">刃直海角骨入</p>
      <p lang="zh-cn">刃直海角骨入</p>

      HTMLオンラインエディタ [liveweave.com]

      まあソースはソースなので、HTMLレンダリングの結果さえ部分毎に変わってくれるなら別にいいかなと
      ワープロつーかdocxも内部的にはXMLでlang属性指定するのが正道でしょ

  • by Anonymous Coward on 2021年11月02日 17時08分 (#4144560)

    Support Assistantの妙なフォントは一向に直らない。

typodupeerror

あと、僕は馬鹿なことをするのは嫌いですよ (わざとやるとき以外は)。-- Larry Wall

読み込み中...