日本における辞書順 (#34371) | UNICODEをどう組み込む

「UNICODEをどう組み込む」記事へのコメント

記事ページを表示すべてのコメント取得

検索160コメント Log In/Create an Account

Re:たしかに (スコア:1)

by kMak (6359)

済まぬ。当方の想像力不足で具体例を思いつけない。
何か具体的な例をお願いします。

--
640K バイトはだれにとっても十分と思われたそうな
- スラッシュドットって (スコア:1)
  
  by Pooh (4850)
  
  トップページからはずれても発言が続くんですね。
  で、続きなんですが国語辞典では
  熟語の記載は文字順でなくて５０音順ですよね。
  「有明」と「有名」は全然別のページです。
  でもひらがなだと、確かに「こんにちは」は「は」
  - 日本における辞書順 (スコア:2, 興味深い)
    
    by kMak (6359) on 2001年10月31日 10時02分 (#34371) ホームページ
    
    ＞スラッシュドットって
    ＞トップページからはずれても発言が続くんですね。
    
    いや、モデレーション全然付かないあたりからして、大多数には忘れ去られてる。
    
    ＞国語辞典では熟語の記載は文字順でなくて５０音順ですよね。
    ＞「有明」と「有名」は全然別のページです。
    
    考え方が微妙に間違ってます。
    手元の「新明解国語事典・第三版」の「編集方針」を見たら明記はなかったんですが、国語事典の排列は、暗黙の『大前提』として、見出し語の見出しへの表記は仮名で正規化し、(その仮名による) 見出しに従って配列を決定する、ことになっています。この新明解には先頭に「漢字索引」という、漢字から索ける索引が付いてますが (^^;
    
    ちなみに、ありとあらゆる、ありうる読みに対して重複コーディングし、コードに従ってソートすれば読みによるソートが完了 ! という凶悪な技もあります。つまり、コード順に文字を見ていくと「荒→有→或」というような並びがあって、さらに「唯→有→床」というような並びがある、というように。つまり、入力する時には正しい読みに合ったコードが入るようにしないといけない、ということ。OCR には文章認識が必要ですね。熟字訓もうまくコードを振ってやれば対応できます。
    
    日本語でやろうとするのは事実上不可能ですが、この世には既にそのようにして作られた重複のある規格が実在します (KS X 1001・既に TRON コードに既収録。どうすんだ ?)
    
    --
    640K バイトはだれにとっても十分と思われたそうな
    
    シェア
    
    親コメント

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

UNICODEをどう組み込む More ログイン

「UNICODEをどう組み込む」記事へのコメント

Re:たしかに (スコア:1)

スラッシュドットって (スコア:1)

日本における辞書順 (スコア:2, 興味深い)

スラド