Re:精度 (#1142819) | IPアドレスの最近傍識別を行うSPAM Filter

「IPアドレスの最近傍識別を行うSPAM Filter」記事へのコメント

記事ページを表示すべてのコメント取得

検索101コメント Log In/Create an Account

精度 (スコア:-1, フレームのもと)

by Anonymous Coward

ベイジアンフィルタの精度が十分高くないって、形態素解析がへぼいだけのような気が……
それとも、99.999％あたりを十分な精度としているのかな？
- Re:精度 (スコア:1)
  
  by subdivisions (9355)
  
  ベイジアンフィルタで済むと思っているのはおめでたい。
  最近のspamはスコアの高い単語を並べまくったものばかりだよ。
  
  自分がもし本気のspammerだったら、そのくらいするでしょ。
  技術系MLのアーカイブからメールを引っこ抜いて、URL部分だけ変えるとかさ。
  - Re:精度 (スコア:0)
    
    by Anonymous Coward
    
    割と単純な実装のベイジアンフィルタ使ってるけど、
    > スコアの高い単語を並べまくったものばかり
    なSPAMでもちゃんと X-Spam: 1.000000 になるよ。
    一般的にスコアの高そうな単語でもうちの辞書でも高いとは限らないわけで。
    
    > 技術系MLのアーカイブからメールを引っこ抜いて、URL部分だけ変えるとかさ。
    これだってそのMLに入ってない人のベイジアンフィルタでは以後そのMLのがみんなSPAM判定されるだけでしょ。
    むしろSPAMの手掛りを与えてるだけじゃないの？同じMLに入ってる人でも「変えたURL部分」に敏感に反応するだろうし。
    
    # ベイジアンフィルタの仕組みと性質が分ってない人ほどベイジアンフィルタに批判的だよね。
    - Re:精度 (スコア:1)
      
      by tarosuke (2403)
      
      なんかね、あの文書に毒されちゃってるというか宗教っぽいものを感じるんだけど...。
      
      >これむしろSPAMの手掛りを与えてるだけじゃないの？同じMLに入ってる人でも「変えたURL部分」に敏感に反応するだろうし。
      >だってそのMLに入ってない人のベイジアンフィルタでは以後そのMLのがみんなSPAM判定されるだけでしょ。
      
      そのMLに入ってる人はどうすんの？きちんと判定されるようになるまで何回学習させればいい？
      「変えたURL部分」は初めて見るものだとすると、それがspam判定されるまで何度学習させればいい？
      
      実際に使っててこういう物言いするのって、ちょっと不思議。まー満足してるからなんだろうけどベイジアンだって万能って程じゃないよ。
      # 最初の頃は本文コミでもきれいに分けてくれるんだ、ベイジアンフィルタって奴は。
      - Re:精度 (スコア:1)
        
        by Elbereth (17793)
        
        >そのMLに入ってる人はどうすんの？きちんと判定されるようになるまで何回学習させればいい？
        
        両者で共通しない部分の情報を元に判定するだけでしょう。1回か2回学習すればできるでしょうよ。
        
        Re:精度 (スコア:0)
        
        by Anonymous Coward
        
        > 両者で共通しない部分の情報を元に判定するだけでしょう。1回か2回学習すればできるでしょうよ。
        
        それはベイジアンフィルタではないと思うがなあ。
        
        Re:精度 (スコア:0)
        
        by Anonymous Coward
        
        ベイジアンフィルタにも色々な流儀があるのかもしれないけど、
        Paul Graham方式ならham,spamに共通して使われるトークンは
        判定に利用されなくなっていくんだから、1，2回というのは正しいと思う。
        ただそれ以前に、MLに入っているんなら正当にMLから来たメールは
        フィルタに掛けない(ham/spamどちらにも入れない)ものだと思うが…
        
        Re:精度 (スコア:0)
        
        by Anonymous Coward
        
        > Paul Graham方式ならham,spamに共通して使われるトークンは判定に利用されなくなっていくんだから
        
        Paul Graham式がベイス推定なのかは置くとして、そんな事をやっていると段々spamとhamの分離度が悪くなっていく。最後には特定の単語があればspam、特定の単語があればhamなんて感じになってしまうんだよね。これじゃ単語の検索と同じ。
        
        > ただそれ以前に、MLに入っているんなら正当にMLから来たメールはフィルタに掛けない(ham/spamどちらにも入れない)ものだと思うが…
        
        今はそれほどでもないけど、MLにspamが投げ込まれる事は以前はあったよね。MLに投げ込まれたspamを処理して行く内に、MLのメッセージが全てspam扱いとなったのが契機だったね、使うのを止めたのの。
        
        Re:精度 (スコア:0)
        
        by Anonymous Coward
        
        >Paul Graham式がベイス推定なのかは置くとして、そんな事をやっていると段々spamとhamの分離度が悪くなっていく。最後には特定の単語があればspam、特定の単語があればhamなんて感じになってしまうんだよね。これじゃ単語の検索と同じ。
        
        MLと似非MLでURL以外全く同じ文面で来るなら、URLおよびReceived:の中の
        単語分布で十分学習が効くだろう。それらを単語の検索と呼ぶのは勝手だけど。
        
        そもそも、似非MLという前提が変だと思う。フィルターを突破した上で、
        業者が対象としている(少数の)読者に非常に魅力的な文面でないと、
        spamの目的は達せない訳なんだから。
        
        Re:精度 (スコア:0)
        
        by Anonymous Coward on 2007年04月14日 18時37分 (#1142819)
        
        > そもそも、似非MLという前提が変だと思う。フィルターを突破した上で、
        > 業者が対象としている(少数の)読者に非常に魅力的な文面でないと、
        > spamの目的は達せない訳なんだから。
        
        時間を掛けても誤学習を積み重ねさせることでフィルタリングへの信頼を揺るがして、「フィルタを厳しくしすぎて大事なメールを誤判定されるよりは、一日数通程度spamを受け取るのもしかたないか」という一定の層を獲得できれば業者の目的は達成できる。
        
        また、技術系MLが例になっているのはここが/.jpだからで、ポピュラーなお得情報・おもしろ情報系のメルマガにでも置き換えた方がわかりやすいだろう。
        
        シェア
        
        親コメント
        
        Re:精度 (スコア:0)
        
        by Anonymous Coward
        
        >時間を掛けても誤学習を積み重ねさせることでフィルタリングへの信頼を揺るがして
        
        全世界のspam業者が結託して誤学習になるようなspamしか流さないようにするのか？
        数％程度の業者が結託した程度じゃどんだけ誤学習させても誤差の範囲だが。

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

IPアドレスの最近傍識別を行うSPAM Filter More ログイン

「IPアドレスの最近傍識別を行うSPAM Filter」記事へのコメント

精度 (スコア:-1, フレームのもと)

Re:精度 (スコア:1)

Re:精度 (スコア:0)

Re:精度 (スコア:1)

Re:精度 (スコア:1)

Re:精度 (スコア:0)

Re:精度 (スコア:0)

Re:精度 (スコア:0)

Re:精度 (スコア:0)

Re:精度 (スコア:0)

Re:精度 (スコア:0)

スラド