みんなで作るIMEプロジェクト起動! 49
タレコミ by d0novan
d0novan 曰く、
情報元へのリンク
既存のIMEとは違ったネットワークを利用した集合知的なIMが開発されたようだ。
今のところWindowsXP/Vistaでしか使えないようだが、APIは公開されているのでMacやLinuxなどでも
フロントエンドを作れば利用できるようです。
未踏ソフトウェア創造事業にも採択されたこのプロジェクト、果たして成功するであろうか?
個人的にはノイズが混じったりするかも知れないという懸念と、偏った変換結果が出てしまうのではないか?という懸念があるが
応援していきたいプロジェクトである。
Mac環境なので試せないが、おおむね好評を得ているようである。
皆さんはこのプロジェクトとどういう風に付き合っていきたいですか?
情報元へのリンク
そういえば (スコア:4, 興味深い)
そういえばMSもユーザ辞書を共有するシステムを作るというのがあったような気がする。
たぶん、これ [nikkeibp.co.jp]だと思う。
Re:そういえば (スコア:5, 参考になる)
同じようなアイディアを、ATOKの方は「ATOKダイレクト」というプラグインの形で実装していますね。
http://www.justsystems.com/jp/products/atok/feature4.html [justsystems.com]
ATOK内でPerl/Rubyが使えるので、
http://journal.mycom.co.jp/articles/2008/11/04/atok2008/index.html [mycom.co.jp]
既に、ATOKからSocial IMEを使うプラグインを実装した人もいるみたいです。試してませんが。
http://d.hatena.ne.jp/t_daicho/20081104/1225810605 [hatena.ne.jp]
正直、たまに出会う難単語や人名を変換するだけなら、構文解析とかのノウハウに明らかに劣っていそうなソフトを使って単語数だけむやみに増やす、という方法は魅力的には思えないので、ATOKのアプローチの方が現実的だなと思います。
Re: (スコア:0)
むしろ、こっちの気が。
http://srad.jp/article.pl?sid=08/10/20/0424216 [srad.jp]
関連ストーリーに挙がってないけど。
MacUIM (スコア:2, 参考になる)
> タレコミ主は Mac 環境なので試すことができないのですが
MacUIM (http://macuim.googlecode.com/)でSocial-IME使えますよ。
IMEそのものを作っているのかぁ (スコア:1)
「PCに常駐するクライアントソフトと、かな漢字変換を行うサーバ」で構成されるってことなんだけど、IMEそのものを作るのか・・・目的の達成のためなら、既存のIMEのための辞書と学習結果を共有するハブということでもイケそうなんだけど、辞書はともかく学習結果を共有というのは難しそうだしな。
しかし学習結果は共有してくれなくてもいい気もする。
屍体メモ [windy.cx]
Re:IMEそのものを作っているのかぁ (スコア:2, 興味深い)
学習結果は、個人のもので共有するようなものではない気がしますが、インストール直後の初期学習データとしては、各ユーザの学習情報を平均したようなものを利用しても良いような気がします。
Re: (スコア:0)
そのサーバーにぶら下がっているユーザーがどのくらい変態かが分かって、かなり問題ありそうなので止めてください。
#『しょくしゅ』とか『せいぎ』とか…
Re: (スコア:0)
「各ユーザの学習情報を平均したようなもの」としてgoogleがあつめたデータをつかうIMEが開発されています。
http://cl.naist.jp/~mamoru-k/chaime/statime.html [naist.jp]
> Google 日本語 N グラム(200億文から抽出した N グラムで、200万 unigram, 8,000万 bigram のタイプ)
が辞書だそうです。
残念ながらGoogle 日本語Nグラムは売り物なのですが。
Re: (スコア:0)
IMEとしてみたら
オーバーヘッドが大きくてもっさりしすぎてるし、
キーボードショートカットはまともじゃないし、
文節切りできないし、
予測変換は文章を破壊していくし、
辞書メンテナンスされずに学習っていうよりカオス状態だし、
(顔文字登録が多すぎる。「かお」の変換候補が多すぎてカオスとか変換で出てこない)
IMEとしては今のところ発展途上としか言いようが無いですね。
学習としては、集合知というからには最大公約数を選択して少数の学習結果を切り捨てていかないと、候補の絞り込みがされずに使い物にならないですよ。
自分の環境だけか? (スコア:1)
以下「ほんじつはせいてんのようなきがしてならない」を変換。
企業宣伝なども含めた不要な荒らし単語の掃除はどうやる仕組みなんだろう。放置?
本日は晴天のような気臥龍牥渽ゆ浡瀊こう楤茶道汬こう獹ㄽ潣癮牥㵴愯楰㼯敭ふ指板ゆ敶瑲ദ芸牥敶㵲睷潳楣污椭敭挮浯牰摥ネジ㵴愯楰⼲牰摥ね時桰㽰瞳ま捥外嵲潬ふ巻獡㵥ゆ灵巣馬木獡㵥影൦ふ地浵間㵲ゆせい歮しょう漽味噌火
Re:自分の環境だけか? (スコア:2, 参考になる)
よくある質問 [social-ime.com]に掲載されるくらい、よくあることのようです。
サポート掲示板 [fc2.com]で情報を募っています。
Re: (スコア:0)
きしゃのきしゃがきしゃできしゃした
でお願いします
これって、昔からある (スコア:1, 興味深い)
cannaとかと何が違うのん?
ソーシャルって言えばいいってもんじゃねーぞ
そうだ、エコの為にソーシャルサーバを用意して
各端末はキーボードとディスプレイくらいに(以下略
Re:これって、昔からある (スコア:1, 興味深い)
自分も Wnn/Canna と何が違うのかと思ってググってみたら、こんなのがありました。
未踏ソフトウェア提案説明 [keio.ac.jp](PPT):
Google が変換した HTML 版はこちら [72.14.235.132]。
Re: (スコア:0)
いや、cannaと全く同じというつもりはないけどね
その程度しか差がないの?
Re:これって、昔からある (スコア:3, すばらしい洞察)
「その程度」っていうけど、 かな漢字変換辞書を皆(有志でなく広い裾野で)で育ててみるっていう 社会実験にはコロンブスの卵的な側面があるんじゃないのかしら。
直感的にはあんまりうまく行きそうな気はしないんだけど、 やってみたらどんな知見が得られるかわからないし、 「ちっぽけな違い」ってのは評論家の言い草であって、 実際に手を動かしてやってみるってのが大事なんだよ、こういうのは。
「既存のものと完全に同じではないけど」って セリフを吐いてしまった時点で、 「口惜しかったらやってみろ」って返されて終わりじゃないのかしら。
これは自分が使うには危険・・・かも・・・? (スコア:1, 興味深い)
これって内容を共有しない辞書と、共有する辞書に分けられるのだろうか?
ユーザー辞書に自分の住所を「うち」に、会社の住所を「かいしゃ」に、
その他メールアドレスなど、多分に個人情報を含む内容を登録している私としては、
なにからなにまで共有されてしまうと言うのだったら、使えない。
あと、いたずらする人も居るんじゃないかと、性悪説な私
こういうやつ [google.com]ね
Re:これは自分が使うには危険・・・かも・・・? (スコア:3, おもしろおかしい)
Re:これは自分が使うには危険・・・かも・・・? (スコア:3, 参考になる)
という候補が出ました。
意外と控えめ?
Re:これは自分が使うには危険・・・かも・・・? (スコア:2, 興味深い)
地番表記を「全角で」と指定されていることが多く、入力も面倒なので
地番まで入った自宅住所を「とうきょう」で単語登録することが多いのですが、
これからは登録した単語がどこに保存されるのか、ネットで誰でもみれる形に
なっていないか、、ということにも気をつけなくちゃいけませんね。
当人が知らない間に個人情報が漏洩していたなんて騒ぎになりかねないし。
私も自宅住所とメールアドレスだけだと思うけど、ほかにも個人情報っぽい
長い語句を登録してたかな?
どこかのサイトのパスワードとか。(ぉぃ
Re: (スコア:0)
>「全角で」と指定
で、半角で入れるとご丁寧にも「全角で入力してください」とかエラーを出してくれたりしますね。
半角で入れてることがわかってるなら変換しろよ! とか思います。ここにいる人たちはよく訓練された奴隷ばかりなので人間様が全角で入れ直してコンピュータに使われることを何とも思わないみたいですが。
Re: (スコア:0)
そんなインターネットで共有するんじゃなくて、イントラにサーバー置いてくらいなら
仕事での頻出ワードがうまく使えてよいかなと。
# Atokがブリタニカなら、これはwikipediaか
このIMEの辞書は言葉狩りにあわないのかな (スコア:1)
変換候補にある単語が不愉快だという抗議運動が出たから削除とか、
うるさそうな団体が騒ぎそうだからはじめから入れないとか
いうことはないんだよね。
Re: (スコア:0)
Re: (スコア:0)
幾多のwikiがおかれている状況を考えれば言わずもがな
新らしいNews? (スコア:1)
去年だかにスラドに記事になったよね。。。。と思ったら
コメント [srad.jp]だけでした。
そのときに試したのですが、そこから特に新しいNewsはないみたいで非常に残念です。
作者のブログに
>まずことの経緯ですが、学生時代最後の記念にと、IT系のニュースサイトにプレスリリースを送付しました。
とかいてあるようにたんにプレリリースを出しただけのようです。
スラドには
>「Social IME」が正式公開されました
とあるのにbeta17で正式ではないですし、
INTERNET Watchには
>一般への公開を開始した
とあるけど、前から普通に公開されていました。
より多くの人に知られて辞書やソフト自身が発展すればすばらしいので喜ばしいことではあります。
Re:新らしいNews? (スコア:1)
新らしい→新しい
プレリリース→プレスリリース
ですね。すみません。
#プレビューしても一文字一句読まないとだめだ。
Re: (スコア:0)
プレビューが有ると思うからTYPOするんですよ。
一発勝負のつもりで真剣に書けばミスも減ります。
たぶん…
未踏ソフトウェア (スコア:0)
これは未踏なの?
IPAは予算の使い方間違ってない?
Re:未踏ソフトウェア (スコア:5, 興味深い)
IPAが投資するとどうしても予算が単年度になるので、継続して情報収集を続ける系のプロジェクトはどうせ途中でゴミに変わります。
http://ossmpedia.org/ [ossmpedia.org] なんかも、すごく便利なんですが、検索できるのは 2.6.9-32EL だけだったり…
(LXR 上には [ 2.6.16.9 ] [ 2.6.9-34.EL ] [ 2.6.9-42.EL ] とあるのですが、選択基準なども含めてよく判らん。RHEL 全部~ SuSE も全部~ Miracle も全部~ 本家も全部~ ぐらいやって、それが数年維持され続けて初めて役に立つことが判り、十年以上続けることで意味がでてくるものだろうに)
http://alicia.sourceforge.net/ [sourceforge.net] もすごくよさそうなのだが、なんか停滞しているし…。news が 2006/3/20 ではなぁ。バグチェックスクリプト群なんかは何年もかけて収集し、共通項目を引き出してはライブラリ化していくものだろうにさ。
もうすこし継続的に予算を割り振ることはできないのか…基本的に成果を要求する期間が短すぎる。
別の言い方をすると「予算の使い方が目先のものに走りすぎていて貧乏臭い」。
fjの教祖様
Re: (スコア:0)
>IPAが投資すると
投資ではないですよ。
会社ばかりでもないでしょうし、IPAが株を持つなんてありえないので。
Re:未踏ソフトウェア (スコア:1)
あぁ、なるほど。確かに「お金の利益を目的として」いるわけではないですしね。非常に狭い意味での投資ではないでしょう。
でも、公共事業として生産物を獲得するため、という意味での「公共投資」ですから、結局投資です。
fjの教祖様
Re:未踏ソフトウェア (スコア:2, 興味深い)
未踏なんかより、IPAフォント [ipa.go.jp]「フォントのデザイン変更を可能とするライセンス」版の早期リリース希望。
# 1バイト文字のキャレットがLinuxでは2バイト文字分で表示されるのはなぜ?
Re:未踏ソフトウェア (スコア:1, 参考になる)
> # 1バイト文字のキャレットがLinuxでは2バイト文字分で表示されるのはなぜ?
とりあえずフォントファイルを fontforge で読み込んでそのまま出力したファイルで
置き換えてみたら直ったように見える。ちなみに変換時にかなりの数のエラーがでるが
出力はされる。
この件に関してIPAフォントのサイトのフォームからコメントを送ったが、全く反応なし。
自動応答でもいいから、コメント受け取ったよ、くらいの返信はできないものかね。
Re: (スコア:0)
>自動応答でもいいから、コメント受け取ったよ、くらいの返信はできないものかね。
次に自動応答で返信するくらいサルでも出来る、3ヶ月以内に対応するくらいできないものかね、
というように要求をエスカレートさせるのですね、わかります。
そもそも、非営利組織が公共に公開している成果物に関して特定個人とだけ密接に文通するのは、
あらぬ誤解を招いたりすることもありますので、当選発表は発送でメソッドのほうが有効。
フォームなら「サンクス」画面で最低限の返事は済んでいると考えられるし。
Re: (スコア:0)
> 次に自動応答で返信するくらいサルでも出来る、3ヶ月以内に対応するくらいできないものかね、
> というように要求をエスカレートさせるのですね、わかります。
なにか人を個人的な便宜を求めているクレーマーにしたいようだね。
> そもそも、非営利組織が公共に公開している成果物に関して特定個人とだけ密接に文通するのは、
> あらぬ誤解を招いたりすることもありますので、当選発表は発送でメソッドのほうが有効。
そんなバカな。メールで情報をやりとりするだけで利権でも発生するのかいな。そもそも問い合わせを
してきた相手と「文通」すべきでないのなら、メールアド
Re: (スコア:0)
とりあえずSocial IMEのことでどんだけ喧嘩してもかまわんが、
根っこからオフトピじゃん。
炎を上げるならタレこむか、どっか別のところでやってくれ。
Re: (スコア:0)
昨年の10月にライセンス改訂のための公募はしていた [ipa.go.jp]みたいなんですけどねえ。その後どうなったのかは知りません。
Re:未踏ソフトウェア (スコア:1, おもしろおかしい)
ソフトウェアの開発者は自腹を切って霞を食うのが当然なのに、「つこうた」IPAから補助金をかすめ取ったのがねたましい [srad.jp]のですね。わかります。
Re: (スコア:0)
学生って書いてるから、無職の人間が開発している話とは違う。
Re: (スコア:0)
Re:未踏ソフトウェア (スコア:1)
すば洞つけたモデレータがこのストーリーにコメントしたから消えたんじゃないですかね?
#モデレータ権限回ってきたことないので推測ですが
Re: (スコア:0)
単にモデした人がコメント付けたから
モデが取り消されただけでしょ。
クレーム付けるならルールくらい知ってくれ。
無知は罪なり。
ダウンロード (スコア:0)
http://www.social-ime.com/download.html [social-ime.com]
このページ開いたら同意も求められずに勝手になんかダウンロードされた。
フリーの様ですが (スコア:0)
これもそのうち誹謗中傷罵詈雑言の嵐になって開発が止まりますか?
アレゲ御用達IMEとならないことを願いつつ… (スコア:0)
ユーザ構成によっては、2ch語, アレゲ語, アニオタ語ばかりが得意で、ビジネス, 論文作成にはさっぱり使えないなんてことになりそう。
送信するデータ (スコア:0)
変換の際には以下のような通信をしてるようです
入力時に使用していたプログラムファイル名も送信してるので、プログラムによって変換候補を変える予定でもあるのかな?