アカウント名:
パスワード:
私は数週間前からジャンクメールコントロールという新機能を試していますが、これは素晴らしい確率でスパムを検出してくれます。ベイジアンフィルタという統計的手法を使っているそうです。「スパムへの対策」 [dreamhost.com]という論文で詳しく解説されています。
ご存知だとは思いますが、日本語の文章から単語を切り出すにはどうしたって辞書が必要です。たとえばMozillaで(英数含む)をダブルクリックすると「英数含」が選択されていまいますが、これは妥当な選択とは言えません。(ひらがなのかたまり)もやはり分割できません。(半角カナ)は「半角」と「カナ」に分けられてしまいますが、これも望まれる動作ではないでしょう。
件のフィルタリングのための切り分けなら、完全に単語単位にならなくても精度が落ちる以上のことはないわけで、実際に試してみれば実用的なのかも知れませんが...
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
犯人はmoriwaka -- Anonymous Coward
素晴らしい反スパム機能 (スコア:3, 参考になる)
私は数週間前からジャンクメールコントロールという新機能を試していますが、これは素晴らしい確率でスパムを検出してくれます。ベイジアンフィルタという統計的手法を使っているそうです。「スパムへの対策」 [dreamhost.com]という論文で詳しく解説されています。
Re:素晴らしい反スパム機能 (スコア:1)
Re:素晴らしい反スパム機能 (スコア:0)
Re:素晴らしい反スパム機能 (スコア:2, 参考になる)
(単語切り出しについては、論文筆者は続編で改良を試みてるが、3-gramとか、日本語の2-gramの実験もある。)
でmozillaの実装はどうか? と見てみると、一応対応している。
まずスペースや記号で区切った後、全部数字なら無視、全部ASCIIならそのまま単語とする。それ以外はi18nルーチンに飛び、「カタカナのかたまり」「ひらがなのかたまり」「半角カナのかたまり」「それ以外のかたまり(英数含む)」に分けてる。
Re:素晴らしい反スパム機能 (スコア:1)
「CJK(漢字)のかたまり」「それ以外のかたまり(英数含む)」でした。
Re:素晴らしい反スパム機能 (スコア:1)
ご存知だとは思いますが、日本語の文章から単語を切り出すにはどうしたって辞書が必要です。たとえばMozillaで(英数含む)をダブルクリックすると「英数含」が選択されていまいますが、これは妥当な選択とは言えません。(ひらがなのかたまり)もやはり分割できません。(半角カナ)は「半角」と「カナ」に分けられてしまいますが、これも望まれる動作ではないでしょう。
件のフィルタリングのための切り分けなら、完全に単語単位にならなくても精度が落ちる以上のことはないわけで、実際に試してみれば実用的なのかも知れませんが...
...芸というものは一生勉強だと思っています...
Mozilla と日本語単語の切り出し(Re:素晴らしい反ス (スコア:0)
日本語の読みをルビやツールチップなどで表現させようという試みが mozdev.org にありまして [mozdev.org]そちらでは ChaSen [aist-nara.ac.jp] を使おうとしていますね。
Re:素晴らしい反スパム機能 (スコア:1)
ちょっと安心。
ところで、base64な部分はちゃんと読み飛ばしているでしょうか?
本文による検索やフィルタリングはbase64のエンコード部分を
そのまま見てしまうんですが...
現状ではほぼ完璧に振り分けを行ってくれています。
今、うちのtraining.datは7.6MB。
どんなスパムな単語が登録されているのか、
データの中身を見てみたい気もするけど。
Re:素晴らしい反スパム機能 (スコア:1)
>データの中身を見てみたい気もするけど。
traning.datをUTF-8対応のエディタで(バイナリを無理やり)のぞいたら見れました
mimeだかuuencodeだかの一行分を単語としたのがかなりの量を占めてますが、これがウィルスにマッチするんだろうからあながち無駄とはいえない。