漢字の部首や画数などでも検索できる入力支援ツール 35
ストーリー by kazekiri
引き算かよ 部門より
引き算かよ 部門より
ultrageek 曰く、
パーソナルメディアが、難読字や異体字、記号などを、文字を構成するへんやつくり、関連字情報から検索し、Wordなどのアプリケーションへの入力支援を 行う「超漢字検索」を開発したとのこと(eetimes japan)。超漢字と名が付いているだけに、大漢和辞典の漢字からトンパ文字まで18万もの文字が検索可能となっているのだが、この製品の面白いところは検索方法にあり、 漢字の部品や部首、読み、画数、およびそれらの組み合わせで検索できる。さらにかけ算と引き算まで使え、「木*4」により「木」を4つ以上含む漢字を検索したり、「登-豆」にて「癶」が出てくるという。 漢字マニアなら欲しいかも?
ボケ (スコア:2, 参考になる)
この入力で漢字が表示されたときに、同時に読みや意味について表示されると嬉しいですね。
というかSKKで単漢字入力できない(読みがわからないとか)という出来事があり、自分の漢字忘れの激しさに激ヘコみ中。
# とりあえずコピー&ペーストでどうにかなったけど、IMEパッド含め入力補助がいつでも利用できるとはかぎらないしなー (ex.キオスク端末)
試す機会があれば、この機能も試してみたいです。
M-FalconSky (暑いか寒い)
Re:ボケ (スコア:1)
尹は何と読む? (スコア:2, 興味深い)
このシステムがあれば「伊-イ」で簡単に検索できそうですね。便利かも。
Re:尹は何と読む? (スコア:1, 参考になる)
ま、私も最初は手書き入力で検索しましたが・・・
IMEパッド手書き認識 (スコア:1, 参考になる)
「イン
おさ ただ・す」
と表示されました。
ただし、この読みを入力したところで変換はされないみたいです。
利便性の観点から言えば、マイナーな漢字変換はむしろされないほうが有利な
気もしますので、自分に一番便利な読みで登録しておくのが賢いかも知れませんね。
# Canna とかだと漢字変換はマイナーなのが先に表示されてイヤーンです
# ディストリビューション依存かもしれませんけども
Re:IMEパッド手書き認識 (スコア:2, 参考になる)
Cannaの表示順序 (オフトピック) (スコア:2)
Canna辞書の元になるファイルは下記の形式の行が並んだものです。
|『よみ (属性 変換+)+』
|例) あいすらんど #CN*12 アイスランド 愛撒倫 氷州 氷島
ここで出した例では『あいすらんど』という言葉を変換したときの最初の候補はアイスランドになり、次が愛撒倫になるわけです。
自分が良く使うものが最初に出てくるようにしたい場合は、最初から辞書をいじっておくかmkdic -fqで頻度辞書を作成して学習させる必要があります。頻度辞書を作ると自分が殆どやらない変換はだんだん出てこなくなると思いますよ。
それにしても、Cannaは音便を理解していないとしか思えない動きをすることがあるのでそこで時々いらいらしますね。
Re:Cannaの表示順序 (オフトピック) (スコア:1)
この5年ほどshion辞書を全面的に見直して美紗緒辞書 [misao.gr.jp]なんてものを作ってますが、量が膨大なのでなかなか進まないですね……。
Re:Cannaの表示順序 (オフトピック) (スコア:0)
http://www.is.titech.ac.jp/~yanagis0/text/skk2canna.html [titech.ac.jp]
SKKの名詞だけの辞書と違って動詞の情報もあるのでなかなか変換効率がいいです。
Re:IMEパッド手書き認識 (スコア:0)
どのIME使ってるのかな?(Canna以外を使ってると読みましたが)
ATOKだと変換されますよ。
Re:尹は何と読む? (スコア:1)
でも、ATOK2007では尹[いん]でも尹大納言[いんだいなごん]でも弾(彈)正尹[だんじょうのかみ/だんじょういん]でも変換できなかった。単漢字でも。
Microsoft IME 2000+単漢字辞書だと尹[いん]だけ変換できた。
Re:尹は何と読む? (スコア:0)
金無いからATOK16を使ってるけど、「いん」+F2(単漢字変換)で変換できたぞ。
ATOK使ってるといいつつMS-IMEに切り替わってるのに気がつかない奴とか見たことあるけど、もしかしておまえがそうか?
一説によるとそういう奴がいるから、「あ連R漢」が「ATOK|あ連R漢」になったという話。
しかし、カスタマイズで「あ連R漢」だけに出来るのは、開発者の良心だと見た。
Re:尹は何と読む? (スコア:1)
#つーかなぜか人名漢字セット(F2でつかう)から単漢字辞書を外してあった。
おふとぴ(Re:尹は何と読む?) (スコア:0)
Re:尹は何と読む? (スコア:1)
あなたの環境では表示されるのですか?でしたら参考までにインプットエンジンの名前とバージョンを教えてください。
IMEパッドでも (スコア:2, 参考になる)
実質部首変換と同じことができてます。
手書きの分むしろ今回のこれより便利かも。
引き算ができるのはそれなりに便利かもしれませんが
K/Bオンリーの人限定ツールという感じが。
Re:IMEパッドでも (スコア:0)
確かにIMEパッドの手書き認識は有益ですね。
しかし、日本語の部首と韓国語がシームレスに検索できるでしょうか。
それと大体、PC上だとすればコピペすれば用は足りますので、余程でないと
母国語の人間が使う限りはIMEパッドのお世話になる機会は無い。
言語を問わず使えるというのが、ひとつの特徴点としてあります。
もっとも、日本語からトンパ文字まで対応するメリットは日常滅多に無い。
言語の教育現場や、グローバル対応のキオスク端末くらいでしょうか。
最後
誰も言わないから (スコア:2, おもしろおかしい)
二*三で六が出てくるんですね。
Re:誰も言わないから (スコア:2, おもしろおかしい)
Re:誰も言わないから (スコア:0)
山落意(無)じゃまいか
Tコードにおける部首変換 (スコア:2, 興味深い)
http://www.sato.kuis.kyoto-u.ac.jp/~yuse/tcode/kw/doc/kanchoku.html#label-23 [kyoto-u.ac.jp]
古い実装ではメモリ上の都合もあって、ひとつの漢字について2つの部品のみを定義し、その組合せをアルゴリズム的に計算して合成を行っていました(主に実装上のメモリ制約からこうなっていました)。その後、漢字に含まれる部品をもっと多く記述するアルゴリズムが開発され、現在のEmacs用実装tc.elでは後者が使われています。個人的な感覚では前者の方が好みですが、それは同じ字を日に何度も入力する使い方が多く、慣れるとterseでquickな方が楽になるからだと考えています。あるかないかわからない字をたまに入力するにはvariationが多くてverboseな方がよいでしょう。これは、日常的に入力する文字を指定するための手段(Tコードの部首変換や四角号碼)なのか、普段めったに使わない文字のための検索手段(超漢字検索)なのかによって、要求が違うということが反映されているのだと思います。
漢字直接入力は人間の側の訓練を前提としたシステムであることが多く、検索システムとは別の思想、実装となっていて、その違いが結構面白いです。
参考文献・リンク:
・ 小野芳彦, Tコードの補助入力: 字形組み合せ法と交ぜ書き変換法, 情報処理学会論文誌 Vol. 31 No. 3, pp.404-414 (1990)
・ http://web.sfc.keio.ac.jp/~p92395kk/Input/t-code.html [keio.ac.jp]
・ Wikipedia 部首変換 [wikipedia.org]
漢字源思い出した (スコア:1, 興味深い)
http://www.bitway.ne.jp/gakken/kanjigen/ [bitway.ne.jp]
超漢字って、電子辞書のOSにぴったりな気がするんですけどね
電子辞書版をもっているはずなのでA.C.
Re:漢字源思い出した (スコア:1, 参考になる)
ふつーに部品や読みや画数を組み合わせて文字を引けるね。
(掛け算とか引き算はないけど)
てゆーか漢和辞典ではその手の入力はふつーだと思うんだ。
ハイパー漢字検索と同じじゃね? (スコア:1, 参考になる)
読めない漢字の調べ方、入力の仕方といえば (スコア:1, 参考になる)
こちらの超漢字検索との関係はどうなっているのでしょうか。
アーヴ語欲しい (スコア:1)
#以前フォントはあっても文章を書くのにかなり苦労したので・・・
---
そろそろ次巻出してくださいよ
それなんて今昔文字鏡? (スコア:0)
Re:それなんて今昔文字鏡? (スコア:0)
漢字マニアなら (スコア:0)
# 課題以外で利用したことないから。
OSネタの (スコア:0)
Re:OSネタの (スコア:0)
自分の品性の低さをじまんしなくてもいいのにとか、自虐乙とかいろいろ思う。
インターネットのホームページをキーワードで検索できるサービスを開始 (スコア:0)
「インターネットのホームページをキーワードで検索できるサービスを開始!」
とかいうタレコミが今あったら、おまえらどう思う?
このたれ込みはまさにそれだ。
MS-IMEもATOKも、画数、部首での絞り込みは出来る。というか、仮名漢字変換が出来なかった時代に画数や部首の絞り込み変換があったわけだが…
10年前のトレンドとして、手書き入力による検索があったわけだけどそれには未対応なんだよね?絶望した!
それとも十何万とかいう漢字(それって本当に漢字なのかな、俺文字じゃなくて?)の多さがポイント?でも、ブラウザで表示できない文字って意味あるのかな…
ここからはマジで皮肉抜きモードなんですが、こういう10年以上前のテクノロジーに地道に取り組んでいるパーソナルメディアって、どういう資金源があって存続してるんでしょうか?
どうやって資金繰りが出来ているのか、ものすごく不思議です。
御社の漢字検索テクノロジーには興味ないけど、資金繰りテクノロジーは是非お伺いしたい!マジで!
技術がすごいんじゃなくて (スコア:2, すばらしい洞察)
対応できるほど漢字のデータベースをがんばってきちんと作りました、って
いうところにあるのではないかな。
同じようなことができる(もしかするともっと優れているかもしれない)
某M鏡に比べるとトロンコードの方がライセンス的には使いやすいから、
ある意味では使い勝手がいいかもしれない。
とはいえ、資金繰りテクノロジーは確かに気になりますな。超漢字OSに しても、何がどうなっているのやら。
Re:技術がすごいんじゃなくて (スコア:0)
TRON文字収録センターの検索ページ [tron.org]でも体験できます。ちゃんと「木*4」や「登-豆」にも対応していますね。