アカウント名:
パスワード:
bogoは日本語の扱いいかがですか?いま速攻でPOPFile導入しましたが、1万5千通以上サーバーに残っているメールを最初からダウソし始めたのでこまったのと、今まで分類済みのメ
ちなみにMozillaだと英語は99.99%正確だったんですが、日本語だとせいぜい数十%くらいでした(感覚的に)。
bogofilterは日本語に全く対応していませんから、そんなもんかも知れませんね。
私はbogofilterに通す前にnkf2でUTF8に変換して、それをmecab使って分かち書きにしてます。これでかなり精度高いと思ってます...... でも、良く考えたら、ウチに屆くスパムは中国語、ハングル、英語がほとんどで、日本語のスパムが元々少ないんで、本当の意味で精度が高いのかどうかはわからなかったりしますが。
* ? nkf -m -e | kakasi -w | bogofilter spam/.
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
コンピュータは旧約聖書の神に似ている、規則は多く、慈悲は無い -- Joseph Campbell
bogofilterもあるでよ (スコア:3, 参考になる)
bsfilterと同じようにprocmailと併用するタイプです。
正直あまり性能はよくないなぁと感じてますけど。
メールの喰わせ方が悪いのかも知れませんが。
あと有名なのはMozillaですが、こちらのBayesian Filterは
使った限りではかなり性能良さそうです(日本語を除く)。
# 大学の研究がBayes関連でこういう話はちょっと嬉しいのでID。
Re:bogofilterもあるでよ (スコア:0)
bogoは日本語の扱いいかがですか?いま速攻でPOPFile導入しましたが、1万5千通以上サーバーに残っているメールを最初からダウソし始めたのでこまったのと、今まで分類済みのメ
Re:bogofilterもあるでよ (スコア:3, 参考になる)
自分の環境だと英語も日本語もあまり変わらないです。
SPAMが誤判定されることはあっても(今だいたい5%くらい)、
non-SPAMがSPAMと判定されることは今のところないです。
ソースは見てないけど、特に考慮はしてないんじゃないかなぁ。
ちなみにMozillaだと英語は99.99%正確だったんですが、
日本語だとせいぜい数十%くらいでした(感覚的に)。
日本語がダメな原因は江村さんのmozilla.party 4.0での発表資料 [biglobe.ne.jp]が詳しいです。
# ついでに、自分が参考にしたのはHotWiredの記事 [hotwired.co.jp]で、自分の設定は、この日記 [wakaba.jp]。
Re:bogofilterもあるでよ (スコア:2, 参考になる)
bogofilterは日本語に全く対応していませんから、そんなもんかも知れませんね。
私はbogofilterに通す前にnkf2でUTF8に変換して、それをmecab使って分かち書きにしてます。これでかなり精度高いと思ってます...... でも、良く考えたら、ウチに屆くスパムは中国語、ハングル、英語がほとんどで、日本語のスパムが元々少ないんで、本当の意味で精度が高いのかどうかはわからなかったりしますが。
Re:bogofilterもあるでよ (スコア:2, 参考になる)
procmailのレシピはこんな感じです。
解決しました (スコア:0)
は、たとえばスパムメールをつなげてspam.txtにまとめ
$ perl insert.pl spam spam.txt
等とすればいいそうです。手元にスパムメールが残っていないので、これからスパムメールを集めます。
スパムではないメールは
Re:bogofilterもあるでよ (スコア:0)