パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

Mozilla1.3bリリース、変更点山盛り」記事へのコメント

  • 私は数週間前からジャンクメールコントロールという新機能を試していますが、これは素晴らしい確率でスパムを検出してくれます。ベイジアンフィルタという統計的手法を使っているそうです。「スパムへの対策」 [dreamhost.com]という論文で詳しく解説されています。

    • それって日本語のジャンクメールもOKですか?
      • せっかく参考になる論文へのリンクが張ってあるのだから読むべし。あなたの求めている答えもそこにある。
        • 論文では「メール中の単語からspam確率を求める方法」についてかかれているが、mozillaが日本語対応かどうか、つまりスペース区切りでない言語から単語を切り出せるかどうか、の直接的な答えにはなってない。
          (単語切り出しについては、論文筆者は続編で改良を試みてるが、3-gramとか、日本語の2-gramの実験もある。)

          でmozillaの実装はどうか
          • おお。最低レベルの日本語対応はしていると言うことですね。
            ちょっと安心。

            ところで、base64な部分はちゃんと読み飛ばしているでしょうか?
            本文による検索やフィルタリングはbase64のエンコード部分を
            そのまま見てしまうんですが...

            現状で
            • >どんなスパムな単語が登録されているのか、
              >データの中身を見てみたい気もするけど。

              traning.datをUTF-8対応のエディタで(バイナリを無理やり)のぞいたら見れました
              mimeだかuuencodeだかの一行分を単語としたのがかなりの量を占めてますが、これがウィルスにマッチするんだろうからあながち無駄とはいえない。
              親コメント

私はプログラマです。1040 formに私の職業としてそう書いています -- Ken Thompson

処理中...