アカウント名:
パスワード:
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
皆さんもソースを読むときに、行と行の間を読むような気持ちで見てほしい -- あるハッカー
精度 (スコア:-1, フレームのもと)
それとも、99.999%あたりを十分な精度としているのかな?
Re:精度 (スコア:1)
最近のspamはスコアの高い単語を並べまくったものばかりだよ。
自分がもし本気のspammerだったら、そのくらいするでしょ。
技術系MLのアーカイブからメールを引っこ抜いて、URL部分だけ変えるとかさ。
Re:精度 (スコア:0)
> スコアの高い単語を並べまくったものばかり
なSPAMでもちゃんと X-Spam: 1.000000 になるよ。
一般的にスコアの高そうな単語でもうちの辞書でも高いとは限らないわけで。
> 技術系MLのアーカイブからメールを引っこ抜いて、URL部分だけ変えるとかさ。
これだってそのMLに入ってない人のベイジアンフィルタでは以後そのMLのがみんなSPAM判定されるだけでしょ。
むしろSPAMの手掛りを与えてるだけじゃないの?同じMLに入ってる人でも「変えたURL部分」に敏感に反応するだろうし。
# ベイジアンフィルタの仕組みと性質が分ってない人ほどベイジアンフィルタに批判的だよね。
Re:精度 (スコア:1)
>これむしろSPAMの手掛りを与えてるだけじゃないの?同じMLに入ってる人でも「変えたURL部分」に敏感に反応するだろうし。
>だってそのMLに入ってない人のベイジアンフィルタでは以後そのMLのがみんなSPAM判定されるだけでしょ。
そのMLに入ってる人はどうすんの?きちんと判定されるようになるまで何回学習させればいい?
「変えたURL部分」は初めて見るものだとすると、それがspam判定されるまで何度学習させればいい?
実際に使っててこういう物言いするのって、ちょっと不思議。まー満足してるからなんだろうけどベイジアンだって万能って程じゃないよ。
# 最初の頃は本文コミでもきれいに分けてくれるんだ、ベイジアンフィルタって奴は。
Re:精度 (スコア:1)
両者で共通しない部分の情報を元に判定するだけでしょう。1回か2回学習すればできるでしょうよ。
Re:精度 (スコア:1)
Re:精度 (スコア:1)
ham判定したspamは、「hamデータベースから引く」「spamデータベースに足す」をやってます。
たいていは、これだけでspam判定に変わります。
ただ、最近はあの手この手と新たな文面の(=spamにもhamにもほとんどデータが載ってないからham判定になる)spamを送ってくることが多いですね。そうなるとベイズ推定は無力。
今は rbl.jp・check_uri.pl をbsfilterと併用してます。
どんな文面だろうと、誘導したいURLは同じとこだったりするわけで、
それを単語学習させて頻度計算するよりは、出現したら即spam行きにした方が確実。
bsfilter単体の時は、一日100通ぐらいのspamが届いていた(それでも、95%ぐらいのspam検出率はありました)のですが、
check_uri.pl を併用してからは、spamは一日5通ぐらいになりました。
Re:精度 (スコア:1)
# だけど新規のゾンビとかが相手だとあんまりうまく判定してくれない。学習させればいいんだけど。