アカウント名:
パスワード:
私は数週間前からジャンクメールコントロールという新機能を試していますが、これは素晴らしい確率でスパムを検出してくれます。ベイジアンフィルタという統計的手法を使っているそうです。「スパムへの対策」 [dreamhost.com]という論文で詳しく解説されています。
ご存知だとは思いますが、日本語の文章から単語を切り出すにはどうしたって辞書が必要です。たとえばMozillaで(英数含む)をダブルクリックすると「英数含」が選択されていまいますが、これは妥当な選択とは言えません。(ひらがなのかたまり)もやはり分割できません。(半角カナ)は「半角」と「カナ」に分けられてしまいますが、これも望まれる動作ではないでしょう。
件のフィルタリングのための切り分けなら、完全に単語単位にならなくても精度が落ちる以上のことはないわけで、実際に試してみれば実用的なのかも知れませんが...
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
長期的な見通しやビジョンはあえて持たないようにしてる -- Linus Torvalds
素晴らしい反スパム機能 (スコア:3, 参考になる)
私は数週間前からジャンクメールコントロールという新機能を試していますが、これは素晴らしい確率でスパムを検出してくれます。ベイジアンフィルタという統計的手法を使っているそうです。「スパムへの対策」 [dreamhost.com]という論文で詳しく解説されています。
Re:素晴らしい反スパム機能 (スコア:1)
Re:素晴らしい反スパム機能 (スコア:0)
Re:素晴らしい反スパム機能 (スコア:2, 参考になる)
(単語切り出しについては、論文筆者は続編で改良を試みてるが、3-gramとか、日本語の2-gramの実験もある。)
でmozillaの実装はどうか
Re:素晴らしい反スパム機能 (スコア:1)
ご存知だとは思いますが、日本語の文章から単語を切り出すにはどうしたって辞書が必要です。たとえばMozillaで(英数含む)をダブルクリックすると「英数含」が選択されていまいますが、これは妥当な選択とは言えません。(ひらがなのかたまり)もやはり分割できません。(半角カナ)は「半角」と「カナ」に分けられてしまいますが、これも望まれる動作ではないでしょう。
件のフィルタリングのための切り分けなら、完全に単語単位にならなくても精度が落ちる以上のことはないわけで、実際に試してみれば実用的なのかも知れませんが...
...芸というものは一生勉強だと思っています...
Mozilla と日本語単語の切り出し(Re:素晴らしい反ス (スコア:0)
日本語の読みをルビやツールチップなどで表現させようという試みが mozdev.org にありまして [mozdev.org]そちらでは ChaSen [aist-nara.ac.jp] を使おうとしていますね。