パスワードを忘れた? アカウント作成
591849 journal

kzkの日記: uim : uim conference 4

日記 by kzk

行って来ました。

まずは自分の発表でしたが、まぁまぁ上手く行ったんではないかと。他の方々がもっと砕けた感じの発表だったんでちょっと負けた気分。まじめに行き過ぎた感が残りますた(苦笑)まぁでも良い経験にはなりました。kanouさんにちょっとアドバイスを貰う。CHISEプロジェクトについて調べんとな。後、辞書機能を見せるの忘れた。ショーーック。

ashieさん、tabataさん、tkngさん、Yamakenさんに加えて、omoteさん、山本さん(uim-fep)にも会えたのでこれでekatoさん以外は顔見せできたことになるなぁ。

anthyの吉田さんの発表についてコメント。
昨日よく考えてみたんだが、ポワソン分布を採用するのは理論的に間違ってると思われる。文節の長い単語ってのはそれが正しい確立は非常に高い。頻度は少ないんだけど。だから確立補正には単調増加グラフを利用するのが正しいと思う。これだと平均長が長ければ長いほど変換効率が上がるのは説明できる。なぜかというと、ポワソン分布のグラフは平均長に来るまでは単調増加だからだ。
という感じか。

yatsさんのプレゼン資料格好良すぎ。
帰りの電車が一緒だったので結構喋らせていただいた。
Pufui期待してます。MaxOS Xにmigemoがネイティブで対応とか熱いです、熱すぎます。

PRIMEの小松さんはナイスガイだった。
未踏応募しろとそそのかされたのでアイデア練っておきます(笑)

gniibeさんキャラ濃すぎです。
もぅ懇親会ではgniibeさんのトークに聴き入ってました。ソースコードのトラックバックってのはナイスアイデアだと思いまする。

cannadicの杉本さんもオモロい人だった。
懇親会で席が最初隣でした。ってか関西弁良いねーやっぱり。関西人多くて中々良い感じでした。

m17n libの半田さんの発表はもうちょっと聞きたかったなぁ。
ちょい残念。

柳田さんの用例変換は是非実現して欲しい。
神降臨期待。
というかこれがもし成功したらAnthyだけじゃなくてPRIMEにも利用できる気がする。文脈から予想なんて熱いですよ。これも熱すぎます。

OOoユーザー会のcatchさん。
なんかOOoに対する必死さは伝わって来た。その情熱をコード書きに向けられないのかなーとか思う俺は間違ってんのかな?んまぁいいや。

cannaメンテナの相田さんとも色々と喋れた。(うちの大学の先輩だし)部首辞書はライセンス的に問題無いとの事なのでとっとと作ってしまおう。

懇親会では色々オフレコトークが聞けておもろかったです。是非次回uim confereceが開かれると良いなー。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • 自分の所 [khdd.net]に書いたんですが、関数の具体形を求めようとすると当てずっぽうでいろいろ試して性能比較するチューニングが必要になるので、条件つき実現確率を真面目に求めたほうがなんとなく気持ちがいいのではないかと思います。(田畑さんの推薦図書の紹介 [srad.jp]から推測するに、Anthy の開発者の方は理論的・統計的な裏づけのないアドホックなアプローチをできるだけ避けるというコンセンサスがあるようですので)。
  • by Anonymous Coward on 2004年11月29日 21時06分 (#659163)
    こんにちは、吉田です。
    僕の説明不足だったとは思うのですが、あれはポワソン分布の単調増加部分しか利用しないのが一番性能が良かったということを通して、文節長が長い物を優先すべきだということを示したつもりでした(これは明らかなことではないはずですし)。
    それで、紆余曲折の中にまとめてしまって省いたのですが、他にもいろいろと単調増加関数は試しています。線形関数だとか指数関数だとか。その中でもポワソン分布の単調増加部分を利用するのが一番性能が良かったので、そのまま残しているという感じです。
    • やっぱりいろいろやってらっしゃるんですね。実用的な見地から言うと、現在既にかなり最適化されていて、遷移行列を実データから得られた条件つき確率に置き換えても、さほど性能向上は望めないのではないかと思います。
      それよりむしろ、文節クラスをどのように分けるべきか、単語頻度による評価とのすり合わせをどうするべきかを工夫した方が得る所が多いような気がします。ここはいわゆる「職人芸」が必要になってしまうと思いますが。
      親コメント
    • なるほど。省略されていらっしゃっただけでしたか。それは失礼致しました。にしてもヒウリスティックなモノが多いですねぇ...まぁきちんとした理論が無い訳でも無いのでしょうけれども。これからも頑張って下さい。付属語グラフぐらいならいぢれるので不具合が有ればまた手伝わせて頂きます。

      後、変換の正しさの確立はどうやって測っていらっしゃるんですか?
      少し興味が有ります。
      親コメント
typodupeerror

ハッカーとクラッカーの違い。大してないと思います -- あるアレゲ

読み込み中...