素晴らしい反スパム機能 (#256330) | Mozilla1.3bリリース、変更点山盛り

「Mozilla1.3bリリース、変更点山盛り」記事へのコメント

記事ページを表示すべてのコメント取得

検索58コメント Log In/Create an Account

素晴らしい反スパム機能 (スコア:3, 参考になる)

by kazhik (100) on 2003年02月11日 17時57分 (#256330) ホームページ

私は数週間前からジャンクメールコントロールという新機能を試していますが、これは素晴らしい確率でスパムを検出してくれます。ベイジアンフィルタという統計的手法を使っているそうです。「スパムへの対策」 [dreamhost.com]という論文で詳しく解説されています。
- Re:素晴らしい反スパム機能 (スコア:3, 参考になる)
  
  by rug (55) on 2003年02月11日 20時41分 (#256427) 日記
  See also:
  
  Gauche:SpamFilter [dreamhost.com]
  Bayesianってどういう考え方なんだろう [aist-nara.ac.jp]
  シェア
  
  親コメント
- Re:素晴らしい反スパム機能 (スコア:2, 参考になる)
  
  by bero (5057) on 2003年02月12日 5時43分 (#256701) 日記
  
  ジャンクメールにはほとほと困ってたので早速使ってみました。
  辞書（？）を鍛えるまでが面倒ですが（公式リリースには初期辞書を入れて欲しい）いい感じです。
  
  考えると、非常に応用範囲が広い技術と思います。MLやニュースからから興味深いトピックのみぬきだしたりとか。
  
  欲をいえば、分けるときにspam or not spamの２択でなく、
  確率順にソートして真中へんだけチェックできると便利かな。
  
  シェア
  
  親コメント
- Re:素晴らしい反スパム機能 (スコア:1)
  
  by lu9 (13849) on 2003年02月11日 18時21分 (#256350)
  
  それって日本語のジャンクメールもOKですか？
  
  シェア
  
  親コメント
  - Re:素晴らしい反スパム機能 (スコア:0)
    
    by Anonymous Coward
    
    せっかく参考になる論文へのリンクが張ってあるのだから読むべし。あなたの求めている答えもそこにある。
    - Re:素晴らしい反スパム機能 (スコア:2, 参考になる)
      
      by bero (5057) on 2003年02月12日 8時12分 (#256727) 日記
      
      論文では「メール中の単語からspam確率を求める方法」についてかかれているが、mozillaが日本語対応かどうか、つまりスペース区切りでない言語から単語を切り出せるかどうか、の直接的な答えにはなってない。
      （単語切り出しについては、論文筆者は続編で改良を試みてるが、3-gramとか、日本語の2-gramの実験もある。）
      
      でmozillaの実装はどうか？　と見てみると、一応対応している。
      
      まずスペースや記号で区切った後、全部数字なら無視、全部ASCIIならそのまま単語とする。それ以外はi18nルーチンに飛び、「カタカナのかたまり」「ひらがなのかたまり」「半角カナのかたまり」「それ以外のかたまり(英数含む)」に分けてる。
      
      シェア
      
      親コメント
      - Re:素晴らしい反スパム機能 (スコア:1)
        
        by bero (5057) on 2003年02月12日 8時23分 (#256735) 日記
        
        >>「それ以外のかたまり(英数含む)」
        
        「CJK（漢字）のかたまり」「それ以外のかたまり(英数含む)」でした。
        
        シェア
        
        親コメント
      - Re:素晴らしい反スパム機能 (スコア:1)
        
        by Circlive (12651) on 2003年02月12日 9時03分 (#256751) 日記
        
        ご存知だとは思いますが、日本語の文章から単語を切り出すにはどうしたって辞書が必要です。たとえばMozillaで（英数含む）をダブルクリックすると「英数含」が選択されていまいますが、これは妥当な選択とは言えません。（ひらがなのかたまり）もやはり分割できません。（半角カナ）は「半角」と「カナ」に分けられてしまいますが、これも望まれる動作ではないでしょう。
        
        件のフィルタリングのための切り分けなら、完全に単語単位にならなくても精度が落ちる以上のことはないわけで、実際に試してみれば実用的なのかも知れませんが...
        
        --
        ...芸というものは一生勉強だと思っています...
        
        シェア
        
        親コメント
        
        Mozilla と日本語単語の切り出し（Re:素晴らしい反ス (スコア:0)
        
        by Anonymous Coward
        
        本題とは関係ない話なんですが。
        
        日本語の読みをルビやツールチップなどで表現させようという試みが mozdev.org にありまして [mozdev.org]そちらでは ChaSen [aist-nara.ac.jp] を使おうとしていますね。
      - Re:素晴らしい反スパム機能 (スコア:1)
        
        by level (13054) on 2003年02月12日 22時49分 (#257302) ホームページ日記
        
        おお。最低レベルの日本語対応はしていると言うことですね。
        ちょっと安心。
        
        ところで、base64な部分はちゃんと読み飛ばしているでしょうか？
        本文による検索やフィルタリングはbase64のエンコード部分を
        そのまま見てしまうんですが...
        
        現状ではほぼ完璧に振り分けを行ってくれています。
        
        今、うちのtraining.datは7.6MB。
        どんなスパムな単語が登録されているのか、
        データの中身を見てみたい気もするけど。
        
        シェア
        
        親コメント
        
        Re:素晴らしい反スパム機能 (スコア:1)
        
        by bero (5057) on 2003年02月13日 9時25分 (#257530) 日記
        
        >どんなスパムな単語が登録されているのか、
        >データの中身を見てみたい気もするけど。
        
        traning.datをUTF-8対応のエディタで（バイナリを無理やり）のぞいたら見れました
        mimeだかuuencodeだかの一行分を単語としたのがかなりの量を占めてますが、これがウィルスにマッチするんだろうからあながち無駄とはいえない。
        
        シェア
        
        親コメント
    - Re:素晴らしい反スパム機能 (スコア:1)
      
      by a Coward (5383) on 2003年02月11日 23時19分 (#256515) ホームページ
      
      Mozilla1.3b(on Windows2000)で
      論文 [dreamhost.com]を見ると、これこそSPAMと言うべきものにしか
      見えないのですが…
      
      シェア
      
      親コメント
    - Re:素晴らしい反スパム機能 (スコア:0)
      
      by Anonymous Coward
      
      わかってて言ってるんじゃないの？
  - Re:素晴らしい反スパム機能 (スコア:0)
    
    by Anonymous Coward
    
    正常な日本語のメールを受け取る事がほとんどで、大量の英語 spam と少量の正常な英語のメールを受け取るようなケースのような場合にはどうなるんだろう？
- Re:素晴らしい反スパム機能 (スコア:0)
  
  by Anonymous Coward
  
  spamassassin とどっちが賢いかなぁ？
  - Re:素晴らしい反スパム機能 (スコア:2, 参考になる)
    
    by yasushi (789) on 2003年02月12日 1時52分 (#256635)
    
    件の機能の方はチェックしてないんですが、
    コメントから判断するに統計的フィルタリングみたいっすね。
    で、spamassassinの方は完全にパターンマッチングです。
    
    spamassassinはパターンにマッチしないような新しいspamは、
    パターンを追加しないと通ってしまいます。
    
    一方ジャンクメールコントロールは統計を使うので、文章が
    spamっぽければ検出できるはずです。(逆に誤検出の可能性もある)
    
    シェア
    
    親コメント
    - Re:素晴らしい反スパム機能 (スコア:2, 参考になる)
      
      by bero (5057) on 2003年02月12日 5時22分 (#256696) 日記
      
      developpers Worksに比較 [ibm.com]がありました
      
      mozillaそのものでなく、それに使われてる理論のテスト実装との比較ですが、こっちのほうが性能がいいみたいです。
      
      シェア
      
      親コメント

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

Mozilla1.3bリリース、変更点山盛り More ログイン

「Mozilla1.3bリリース、変更点山盛り」記事へのコメント

素晴らしい反スパム機能 (スコア:3, 参考になる)

Re:素晴らしい反スパム機能 (スコア:3, 参考になる)

Re:素晴らしい反スパム機能 (スコア:2, 参考になる)

Re:素晴らしい反スパム機能 (スコア:1)

Re:素晴らしい反スパム機能 (スコア:0)

Re:素晴らしい反スパム機能 (スコア:2, 参考になる)

Re:素晴らしい反スパム機能 (スコア:1)

Re:素晴らしい反スパム機能 (スコア:1)

Mozilla と日本語単語の切り出し（Re:素晴らしい反ス (スコア:0)

Re:素晴らしい反スパム機能 (スコア:1)

Re:素晴らしい反スパム機能 (スコア:1)

Re:素晴らしい反スパム機能 (スコア:1)

Re:素晴らしい反スパム機能 (スコア:0)

Re:素晴らしい反スパム機能 (スコア:0)

Re:素晴らしい反スパム機能 (スコア:0)

Re:素晴らしい反スパム機能 (スコア:2, 参考になる)

Re:素晴らしい反スパム機能 (スコア:2, 参考になる)

スラド