アカウント名:
パスワード:
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
アレゲは一日にしてならず -- アレゲ研究家
精度 (スコア:-1, フレームのもと)
それとも、99.999%あたりを十分な精度としているのかな?
Re:精度 (スコア:1)
最近のspamはスコアの高い単語を並べまくったものばかりだよ。
自分がもし本気のspammerだったら、そのくらいするでしょ。
技術系MLのアーカイブからメールを引っこ抜いて、URL部分だけ変えるとかさ。
Re:精度 (スコア:0)
> スコアの高い単語を並べまくったものばかり
なSPAMでもちゃんと X-Spam: 1.000000 になるよ。
一般的にスコアの高そうな単語でもうちの辞書でも高いとは限らないわけで。
> 技術系MLのアーカイブからメールを引っこ抜いて、URL部分だけ変えるとかさ。
これだってそのMLに入ってない人のベイジアンフィルタでは以後そのMLのがみんなSPAM判定されるだけでしょ。
むしろSPAMの手掛りを与えてるだけじゃないの?同じMLに入ってる人でも「変えたURL部分」に敏感に反応するだろうし。
# ベイジアンフィルタの仕組みと性質が分ってない人ほどベイジアンフィルタに批判的だよね。
Re:精度 (スコア:1)
>これむしろSPAMの手掛りを与えてるだけじゃないの?同じMLに入ってる人でも「変えたURL部分」に敏感に反応するだろうし。
>だってそのMLに入ってない人のベイジアンフィルタでは以後そのMLのがみんなSPAM判定されるだけでしょ。
そのMLに入ってる人はどうすんの?きちんと判定されるようになるまで何回学習させればいい?
「変えたURL部分」は初めて見るものだとすると、それがspam判定されるまで何度学習させればいい?
実際に使っててこういう物言いするのって、ちょっと不思議。まー満足してるからなんだろうけどベイジアンだって万能って程じゃないよ。
# 最初の頃は本文コミでもきれいに分けてくれるんだ、ベイジアンフィルタって奴は。
Re:精度 (スコア:1)
両者で共通しない部分の情報を元に判定するだけでしょう。1回か2回学習すればできるでしょうよ。
Re:精度 (スコア:0)
それはベイジアンフィルタではないと思うがなあ。
Re:精度 (スコア:0)
Paul Graham方式ならham,spamに共通して使われるトークンは
判定に利用されなくなっていくんだから、1,2回というのは正しいと思う。
ただそれ以前に、MLに入っているんなら正当にMLから来たメールは
フィルタに掛けない(ham/spamどちらにも入れない)ものだと思うが…
Re:精度 (スコア:0)
Paul Graham式がベイス推定なのかは置くとして、そんな事をやっていると段々spamとhamの分離度が悪くなっていく。最後には特定の単語があればspam、特定の単語があればhamなんて感じになってしまうんだよね。これじゃ単語の検索と同じ。
> ただそれ以前に、MLに入っているんなら正当にMLから来たメールはフィルタに掛けない(ham/spamどちらにも入れない)ものだと思うが…
今はそれほどでもないけど、MLにspamが投げ込まれる事は以前はあったよね。MLに投げ込まれたspamを処理して行く内に、MLのメッセージが全てspam扱いとなったのが契機だったね、使うのを止めたのの。
Re:精度 (スコア:0)
MLと似非MLでURL以外全く同じ文面で来るなら、URLおよびReceived:の中の
単語分布で十分学習が効くだろう。それらを単語の検索と呼ぶのは勝手だけど。
そもそも、似非MLという前提が変だと思う。フィルターを突破した上で、
業者が対象としている(少数の)読者に非常に魅力的な文面でないと、
spamの目的は達せない訳なんだから。
Re:精度 (スコア:0)
> 業者が対象としている(少数の)読者に非常に魅力的な文面でないと、
> spamの目的は達せない訳なんだから。
時間を掛けても誤学習を積み重ねさせることでフィルタリングへの信頼を揺るがして、「フィルタを厳しくしすぎて大事なメールを誤判定されるよりは、一日数通程度spamを受け取るのもしかたないか」という一定の層を獲得できれば業者の目的は達成できる。
また、技術系MLが例になっているのはここが/.jpだからで、ポピュラーなお得情報・おもしろ情報系のメルマガにでも置き換えた方がわかりやすいだろう。
Re:精度 (スコア:0)
全世界のspam業者が結託して誤学習になるようなspamしか流さないようにするのか?
数%程度の業者が結託した程度じゃどんだけ誤学習させても誤差の範囲だが。