アカウント名:
パスワード:
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
一つのことを行い、またそれをうまくやるプログラムを書け -- Malcolm Douglas McIlroy
精度 (スコア:-1, フレームのもと)
それとも、99.999%あたりを十分な精度としているのかな?
Re:精度 (スコア:1)
最近のspamはスコアの高い単語を並べまくったものばかりだよ。
自分がもし本気のspammerだったら、そのくらいするでしょ。
技術系MLのアーカイブからメールを引っこ抜いて、URL部分だけ変えるとかさ。
Re:精度 (スコア:0)
>最近のspamはスコアの高い単語を並べまくったものばかりだよ。
フィルタとspamはイタチごっこで進化しております。
あなたのいう「最近のspam」ってもう5年以上前のspamっすよ。
Re:精度 (スコア:1)
ここでの話題はベイジアンフィルタだよ?
この5年でどれほどベイジアンフィルタが進化したのか知らないが、相対的に見てspamの進化の方がずっと速い。
ベイジアンで弾けないspamの割合は増える一方。spamassassinのBAYES_*もあまり効果は感じない。
日本語のspamにはそこそこ効くけどね。
16000通/週を受け取っているので、ほしい数字があったら時間ができたときに出しますよ。
spam率は22%。メールアドレスは基本的に晒していて、トラフィックは技術系ML中心です。
Re:精度 (スコア:0)
>あなたのいう「最近のspam」ってもう5年以上前のspamっすよ。
元コメントの表現がよくないので誤読されたかと思いますが。(うさんくさいウェブサイトのように)「単語」を空白区切りでたくさん並べた、ということではないでしょう。
技術系MLうんぬんの例でわかるように、「単語」や文は普通のものを使うことでベイジアンフィルタを回避できるよ、ということではないかと。目的のウェブサイトに誘導できれば文面は何でもいい、と。
この間「天皇になりませんか?」というスパムがきていたのだけど間に合っているので丁重にお断り(=無視)させていただきました。
Re:精度 (スコア:0)
まさか天皇さんでいらっしゃいますか?
Re:精度 (スコア:0)
いや、朕はちがうのだが……ゴホンゴホン……
Re:精度 (スコア:0)
それこそ5年前のレベルですなって話です。
今じゃ、image spamやransom note spamにだって対抗してますよ。
あ、もしかして、ベイジアンフィルタ批判派は、
肯定派がベイジアンフィルタ万能だと思ってるとか思ってないか?
ベイジアンフィルタを単純に実装しただけでなんとかなると思ってるヤツはいないよ。
Re:精度 (スコア:0)
ちなみに#1142355のACですが、bsfilter愛用しています。手間を考えると、今のところこれだけでも充分な感じです。
画像付きスパムに関しては、(デコメールをもらう可能性がないので)プロバイダのメールサーバにあるフィルタリング機能で「src="cid:」を含むメールを落としているためか、特に困ってはいません。
Re:精度 (スコア:0)
> スコアの高い単語を並べまくったものばかり
なSPAMでもちゃんと X-Spam: 1.000000 になるよ。
一般的にスコアの高そうな単語でもうちの辞書でも高いとは限らないわけで。
> 技術系MLのアーカイブからメールを引っこ抜いて、URL部分だけ変えるとかさ。
これだってそのMLに入ってない人のベイジアンフィルタでは以後そのMLのがみんなSPAM判定されるだけでしょ。
むしろSPAMの手掛りを与えてるだけじゃないの?同じMLに入ってる人でも「変えたURL部分」に敏感に反応するだろうし。
# ベイジアンフィルタの仕組みと性質が分ってない人ほどベイジアンフィルタに批判的だよね。
Re:精度 (スコア:1)
>これむしろSPAMの手掛りを与えてるだけじゃないの?同じMLに入ってる人でも「変えたURL部分」に敏感に反応するだろうし。
>だってそのMLに入ってない人のベイジアンフィルタでは以後そのMLのがみんなSPAM判定されるだけでしょ。
そのMLに入ってる人はどうすんの?きちんと判定されるようになるまで何回学習させればいい?
「変えたURL部分」は初めて見るものだとすると、それがspam判定されるまで何度学習させればいい?
実際に使っててこういう物言いするのって、ちょっと不思議。まー満足してるからなんだろうけどベイジアンだって万能って程じゃないよ。
# 最初の頃は本文コミでもきれいに分けてくれるんだ、ベイジアンフィルタって奴は。
Re:精度 (スコア:1)
両者で共通しない部分の情報を元に判定するだけでしょう。1回か2回学習すればできるでしょうよ。
Re:精度 (スコア:1)
Re:精度 (スコア:1)
ham判定したspamは、「hamデータベースから引く」「spamデータベースに足す」をやってます。
たいていは、これだけでspam判定に変わります。
ただ、最近はあの手この手と新たな文面の(=spamにもhamにもほとんどデータが載ってないからham判定になる)spamを送ってくることが多いですね。そうなるとベイズ推定は無力。
今は rbl.jp・check_uri.pl をbsfilterと併用してます。
どんな文面だろうと、誘導したいURLは同じとこだったりするわけで、
それを単語学習させて頻度計算するよりは、出現したら即spam行きにした方が確実。
bsfilter単体の時は、一日100通ぐらいのspamが届いていた(それでも、95%ぐらいのspam検出率はありました)のですが、
check_uri.pl を併用してからは、spamは一日5通ぐらいになりました。
Re:精度 (スコア:1)
# だけど新規のゾンビとかが相手だとあんまりうまく判定してくれない。学習させればいいんだけど。
Re:精度 (スコア:0)
それはベイジアンフィルタではないと思うがなあ。
Re:精度 (スコア:0)
Paul Graham方式ならham,spamに共通して使われるトークンは
判定に利用されなくなっていくんだから、1,2回というのは正しいと思う。
ただそれ以前に、MLに入っているんなら正当にMLから来たメールは
フィルタに掛けない(ham/spamどちらにも入れない)ものだと思うが…
Re:精度 (スコア:0)
Paul Graham式がベイス推定なのかは置くとして、そんな事をやっていると段々spamとhamの分離度が悪くなっていく。最後には特定の単語があればspam、特定の単語があればhamなんて感じになってしまうんだよね。これじゃ単語の検索と同じ。
> ただそれ以前に、MLに入っているんなら正当にMLから来たメールはフィルタに掛けない(ham/spamどちらにも入れない)ものだと思うが…
今はそれほどでもないけど、MLにspamが投げ込まれる事は以前はあったよね。MLに投げ込まれたspamを処理して行く内に、MLのメッセージが全てspam扱いとなったのが契機だったね、使うのを止めたのの。
Re:精度 (スコア:0)
MLと似非MLでURL以外全く同じ文面で来るなら、URLおよびReceived:の中の
単語分布で十分学習が効くだろう。それらを単語の検索と呼ぶのは勝手だけど。
そもそも、似非MLという前提が変だと思う。フィルターを突破した上で、
業者が対象としている(少数の)読者に非常に魅力的な文面でないと、
spamの目的は達せない訳なんだから。
Re:精度 (スコア:0)
> 業者が対象としている(少数の)読者に非常に魅力的な文面でないと、
> spamの目的は達せない訳なんだから。
時間を掛けても誤学習を積み重ねさせることでフィルタリングへの信頼を揺るがして、「フィルタを厳しくしすぎて大事なメールを誤判定されるよりは、一日数通程度spamを受け取るのもしかたないか」という一定の層を獲得できれば業者の目的は達成できる。
また、技術系MLが例になっているのはここが/.jpだからで、ポピュラーなお得情報・おもしろ情報系のメルマガにでも置き換えた方がわかりやすいだろう。
Re:精度 (スコア:0)
全世界のspam業者が結託して誤学習になるようなspamしか流さないようにするのか?
数%程度の業者が結託した程度じゃどんだけ誤学習させても誤差の範囲だが。
Re:精度 (スコア:0)
以前のスパム判別ソフトウェアはその程度の実装で、簡単にだまくらかされてました。
で、それじゃダメなのでベイジアンフィルタとなったわけです。
ベイジアン=ベイズ統計ってのは、事後の確率から事前の確率を求める手法です。
Re:精度 (スコア:1, 興味深い)
手元のDBにはボディブロウのように効いてきていると感じます。
bogofilterやbsfilterでのフィルタリングは通用しなくなり、とうに諦めました。
今もベイジアンフィルタでOKという人は、何を使っているんでしょうか。
また、どのくらいの量のspamを受け取っているんでしょうか。
Re:精度 (スコア:1)
途中で誤学習した可能性があるので、一度リセットしてみたらどうですか?
Re:精度 (スコア:1)
私個人のメールアドレスでのここ数日の状況は、一日あたりの
spamは130通程度、spamでないものが40通ぐらいとなっています。
POPFileのコントロールパネルに表示されている分類精度は99.84%
となっていますが、実際にはわずかにそれを下回るぐらいかと思い
ます。最近再学習させていないので、1日に1~2通判定を通り抜け
てくるspamがあるもので。
個人のメールアドレスだとか、ここ何年かはサイトやBBSではこ
のメールアドレスを出していない(ユーザー登録などには使用)とか、
メーリングリストはソフトメーカーのサポート系ぐらいしか入って
いないとか、最新の(?)spamを送るようなところから来ていないだ
けかもしれませんが、私の場合はこれでほとんど大丈夫です。
Re:精度 (スコア:1)
ました。期間が3年弱で、判定したメール総数が10万通ほどです。
年々spamが増えていて、今年は月に3000通を突破……。
Re:精度 (スコア:0)
Re:精度 (スコア:0)
だいたい日に 200 ~ 400 通来ます。
漏れるのは数通/日程度です。
学習は 30000 通くらい学習させました。
いまは、学習させてません。
数通なら手で削除する程度で邪魔じゃないからです。
一日あたり 100 通くらいで手作業とかホワイトリスト・ブラックリスト方式では耐えられなくなりました。