Re:精度 (#1142558) | IPアドレスの最近傍識別を行うSPAM Filter

「IPアドレスの最近傍識別を行うSPAM Filter」記事へのコメント

記事ページを表示すべてのコメント取得

検索101コメント Log In/Create an Account

精度 (スコア:-1, フレームのもと)

by Anonymous Coward

ベイジアンフィルタの精度が十分高くないって、形態素解析がへぼいだけのような気が……
それとも、99.999％あたりを十分な精度としているのかな？
- Re:精度 (スコア:1)
  
  by subdivisions (9355)
  
  ベイジアンフィルタで済むと思っているのはおめでたい。
  最近のspamはスコアの高い単語を並べまくったものばかりだよ。
  
  自分がもし本気のspammerだったら、そのくらいするでしょ。
  技術系MLのアーカイブからメールを引っこ抜いて、URL部分だけ変えるとかさ。
  - Re:精度 (スコア:0)
    
    by Anonymous Coward
    
    割と単純な実装のベイジアンフィルタ使ってるけど、
    > スコアの高い単語を並べまくったものばかり
    なSPAMでもちゃんと X-Spam: 1.000000 になるよ。
    一般的にスコアの高そうな単語でもうちの辞書でも高いとは限らないわけで。
    
    > 技術系MLのアーカイブからメールを引っこ抜いて、URL部分だけ変えるとかさ。
    これだってそのMLに入ってない人のベイジアンフィルタでは以後そのMLのがみんなSPAM判定されるだけでしょ。
    むしろSPAMの手掛りを与えてるだけじゃないの？同じMLに入ってる人でも「変えたURL部分」に敏感に反応するだろうし。
    
    # ベイジアンフィルタの仕組みと性質が分ってない人ほどベイジアンフィルタに批判的だよね。
    - Re:精度 (スコア:1)
      
      by tarosuke (2403)
      
      なんかね、あの文書に毒されちゃってるというか宗教っぽいものを感じるんだけど...。
      
      >これむしろSPAMの手掛りを与えてるだけじゃないの？同じMLに入ってる人でも「変えたURL部分」に敏感に反応するだろうし。
      >だってそのMLに入ってない人のベイジアンフィルタでは以後そのMLのがみんなSPAM判定されるだけでしょ。
      
      そのMLに入ってる人はどうすんの？きちんと判定されるようになるまで何回学習させればいい？
      「変えたURL部分」は初めて見るものだとすると、それがspam判定されるまで何度学習させればいい？
      
      実際に使っててこういう物言いするのって、ちょっと不思議。まー満足してるからなんだろうけどベイジアンだって万能って程じゃないよ。
      # 最初の頃は本文コミでもきれいに分けてくれるんだ、ベイジアンフィルタって奴は。
      - Re:精度 (スコア:1)
        
        by Elbereth (17793)
        
        >そのMLに入ってる人はどうすんの？きちんと判定されるようになるまで何回学習させればいい？
        
        両者で共通しない部分の情報を元に判定するだけでしょう。1回か2回学習すればできるでしょうよ。
        
        Re:精度 (スコア:1)
        
        by tarosuke (2403) <webmaster@tarosuke.net> on 2007年04月13日 23時56分 (#1142558) 日記
        
        hamの尤度にspamの尤度が勝るようになるまで繰り返し学習させないとベイジアンフィルタの判定はひっくり返らないよ。そしてspamへ誤判定するのを避けてham尤度の方が強くなってる実装が多い。だからhamへ誤判定したspamをspam判定させるように学習させるのは結構大変。エセMLの例みたいにham語が多い場合はなおさらだよ。
        
        シェア
        
        親コメント
        
        Re:精度 (スコア:1)
        
        by taka2 (14791) on 2007年04月15日 0時13分 (#1142885) ホームページ日記
        
        私はbsfilterを使ってますけど、
        ham判定したspamは、「hamデータベースから引く」「spamデータベースに足す」をやってます。
        たいていは、これだけでspam判定に変わります。
        
        ただ、最近はあの手この手と新たな文面の(=spamにもhamにもほとんどデータが載ってないからham判定になる)spamを送ってくることが多いですね。そうなるとベイズ推定は無力。
        
        今は rbl.jp・check_uri.pl をbsfilterと併用してます。
        どんな文面だろうと、誘導したいURLは同じとこだったりするわけで、
        それを単語学習させて頻度計算するよりは、出現したら即spam行きにした方が確実。
        bsfilter単体の時は、一日100通ぐらいのspamが届いていた(それでも、95%ぐらいのspam検出率はありました)のですが、
        check_uri.pl を併用してからは、spamは一日5通ぐらいになりました。
        
        シェア
        
        親コメント
        
        Re:精度 (スコア:1)
        
        by tarosuke (2403) <webmaster@tarosuke.net> on 2007年04月15日 0時40分 (#1142897) 日記
        
        えーとね(計算中)...うちはbsfilterをヘッダだけ判定にして閾値をいじったりして認識率が99.8%ちょいになってる。本文込みで判定してた頃は同様に95%くらいだったしなかなか学習してくれなかったけどね。
        # だけど新規のゾンビとかが相手だとあんまりうまく判定してくれない。学習させればいいんだけど。
        
        シェア
        
        親コメント

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

IPアドレスの最近傍識別を行うSPAM Filter More ログイン

「IPアドレスの最近傍識別を行うSPAM Filter」記事へのコメント

精度 (スコア:-1, フレームのもと)

Re:精度 (スコア:1)

Re:精度 (スコア:0)

Re:精度 (スコア:1)

Re:精度 (スコア:1)

Re:精度 (スコア:1)

Re:精度 (スコア:1)

Re:精度 (スコア:1)

スラド