アカウント名:
パスワード:
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
ソースを見ろ -- ある4桁UID
できるのか? (スコア:2, 興味深い)
いや、その分野に真剣に取り組んでいる方に敬意は払いますが、これを提案した連中が果たして実現できると思って提案したのか、予算ぶんどりたいから提案したのか・・・後者のように思えてなりません。
別の人もいっていますが、これが実現できなかったら、このプロジェクト自体ウソのページとして認識してもらわんと。
-- gonta --
"May Macintosh be with you"
Re:できるのか? (スコア:0)
一応、英語オンリーな環境であれば97%以上はいくっぽいです。
日本語環境だとちょっと精度が落ちて90%くらいになりますが。
ベイジアンフィルタによるスパム対策 [opentechpress.jp]
スパムへの対策 --- A Plan for Spam [dreamhost.com]
Re:できるのか? (スコア:0)
PopFileは酷かったねえ。学習すればするほど、spamの識別率が下がってしまう。MLに放り込まれたspamの識別率はほぼ0%、つまり素通しだったし。逆にspamまみれのアカウントへ来た非spamの誤認識率も100%、全部spam扱いになっちゃったし。
まあ、これはベイジアンの問題と言うより、ベイジアンの適用方法の間違い、つまりPopFileの実装の問題が理由だけど。
Re:できるのか? (スコア:1)
そこまで識別率が悪い場合、POPFileの実装ではなく
自分の設定や操作がおかしいとは思いませんか?
Re:できるのか? (スコア:4, 興味深い)
思わない。君はPopFileが何をネタにしてベイズ推定をやっているかを理解しているのかな?
spam/非spamが非常に偏っている場合は、ヘッダのベイズ推定への影響が大きいんだ。MLへ放り込まれたspamがほぼ大通しになってしまうのはこれが理由。この場合、学習すればする程、この傾向(ヘッダ重視)は強くなるよ。
spamまみれのアカウントへの非spamメールだけど、ちょっと言い足りなかった。希にしか連絡を寄越さないヤツからのメールがspamとされてしまう、という話。spam/非spamの表現(使用している単語)がばらついた状態であると、非spamメールを分離するだけの閾値を稼げないんだ。
PopFileダメダメじゃん、じゃあ自前で作るか、てんで本文に重みを置くベイズフィルタを作った。PopFileの問題はほとんど解消されたけど、やはり誤認識はあるんでね。spamが非spamとされるのはウザイが許容できたとしても、非spamがspamとされてしまうの許容できないんで、結局ベイズのフィルタリングは止めちゃった。
今はpostfixのポリシーデレゲーションを使ってエンベロープ情報でフィルタするようにしてあるんだけど、毎日5000通程度来るspamで通してしまうのが10通程度なんで、まあ良いかなと思ってる。非spamの誤認識は無いしね。
Re:できるのか? (スコア:0)
ベイズはおまけ程度で、デフォルトの設定ではベイズで99%クロという結果が出てもそれだけではspam判定されません。
一見ローテクですが、これに勝る判定法は今のところないようです。