ベイズ推定で楽々スパムメールをフィルタリング

ベイズ推定で楽々スパムメールをフィルタリング 110

ストーリー by wakatono 2003年08月27日 0時08分
よりお手軽なフィルタリング部門より

jishiha 曰く、 "ベイズ推定を利用したメールフィルター POPFile を使うと、楽にスパムメールをフィルタリングできる。

1日に受け取るスパムメールの数にもよるが、数日間、トレーニングと呼ばれるメールの分類を教え込む作業を行うと、あとはかなり高い精度で自動的にメールの振り分け作業をこなしてくれるようになる。

POPFile は GPL ライセンスに基づいたオープンソースソフトウェア、インストールは簡単で、例えば分類ルールの作成といった面倒な設定は必要ない。日本語マニュアルが用意されており、日本語化パッチをあてることにより、ユーザーインターフェースの日本語化、日本語メールの分類にも対応している。"

POPFileはPOP Proxyとして動作する。クライアントにてSpam振り分けを行うという動作になるので、手軽といえば手軽。ISPのメールサーバからPOPでメールを取得している人には導入しやすいだろう。サーバサイドでどうにかしたい人向けにはRubyによるベイジアンスパムフィルタもある。必要に応じて自分の用途に適したものを使い分けるのが吉。

この議論は賞味期限が切れたので、アーカイブ化されています。新たにコメントを付けることはできません。

記事ページを表示すべてのコメント取得

検索110コメント Log In/Create an Account

SAProxy (スコア:4, 参考になる)

by slash5234 (16218) on 2003年08月27日 1時12分 (#386260)

SAProxyつかってます。Spam AssassinのWindows用POPプロキシを
http://saproxy.bloomba.com/ がパッケージングして出してくれていて、かなりイイです。

ちなみにCNN(US)で見たのですが、アメリカの消費者情報機関？
のようなところが5月か6月にやったSPAMフィルターの比較テスト
ではSAProxyが1位だと言っていました。
- Re:SAProxy (スコア:1)
  
  by g_maeda (6110) on 2003年08月27日 1時52分 (#386279)
  
  　私も使ってるんですが、POP3のTOPコマンドに対応していないのが難点。Beckey!でサーバ上のメールを一覧表示する機能とか、メールが一定サイズ以上だった場合にヘッダだけ取ってくる機能が使えなくてちょっとだけ困っています。
  
  　それ以外の使い勝手やspam判定の性能は素晴らしいと思います。
  
  # でも一番いいと思ってるのは10～20通/日のspamをしばらく食わせたApple Mail.app。
  
  シェア
  
  親コメント
  - Re:SAProxy (スコア:1)
    
    by lucky (14762) on 2003年08月27日 2時16分 (#386286) 日記
    
    >POP3のTOPコマンドに対応していないのが難点
    ？
    
    Configure-Advanced-POP3 options...-Allow the TOP command to be proxied
    
    にチェックを入れてもうまく動かないということ？
    
    シェア
    
    親コメント
Support Vector Machine (スコア:4, 興味深い)

by Anonymous Coward on 2003年08月27日 6時54分 (#386323)

いちおう自然言語処理を専門とする研究室にいるものですが，テキスト分類においてはベイズ分類器よりも Support Vector Machine の方が精度が高いというのが現在の通説です。
世間では，ベイズ分類器しか出回ってないようですが，なぜ SVM を使わないのだろう？やってみたけれど思わしくないのか，それともそもそもやってみていないのか。
自分で作ってみようかな。

主流だと思われる Paul Graham の方式に関して言えば feature selection の段階を手を抜かずに行えば，より精度は上がるような気がします。
- Re:Support Vector Machine (スコア:1, 興味深い)
  
  by Anonymous Coward on 2003年08月27日 8時11分 (#386336)
  
  SVMは....学習遅すぎませんか？ SVMlightくらいしか使ったこと無いので最近は間違っているかもしれませんが、２年くらい前に feature vector 5000次元で 5000例くらい食わせて遊んでいたらPenIII1G/Mem1Gくらいで一晩掛かったような。
  最近は速く計算できるようになっていたりしたら誰か教えてくれるとうれしいなぁ。
  
  シェア
  
  親コメント
- Re:Support Vector Machine (スコア:1, 参考になる)
  
  by Anonymous Coward on 2003年08月27日 10時35分 (#386393)
  
  90年代中頃ぐらいに出て来たばかりだから、まだ研究者の方々は現実的な応用まで気がまわらないんじゃないですかね。今頑張ると良いことがあるのかも。
  ベイズの方は計算時間の短縮が可能になって、利用にはずみがついたというような話はよく聞きます。計算時間の短縮って一筋縄じゃいかないんですけどね。(^^;
  
  シェア
  
  親コメント
bogofilterもあるでよ (スコア:3, 参考になる)

by ikemo (901) on 2003年08月27日 0時40分 (#386241)

自分はBogofilter [sourceforge.net]使ってます。
bsfilterと同じようにprocmailと併用するタイプです。
正直あまり性能はよくないなぁと感じてますけど。
メールの喰わせ方が悪いのかも知れませんが。

あと有名なのはMozillaですが、こちらのBayesian Filterは
使った限りではかなり性能良さそうです(日本語を除く)。

# 大学の研究がBayes関連でこういう話はちょっと嬉しいのでID。
- - Re:bogofilterもあるでよ (スコア:3, 参考になる)
    
    by ikemo (901) on 2003年08月27日 1時19分 (#386262)
    
    ＞bogoは日本語の扱いいかがですか？
    自分の環境だと英語も日本語もあまり変わらないです。
    SPAMが誤判定されることはあっても(今だいたい5％くらい)、
    non-SPAMがSPAMと判定されることは今のところないです。
    ソースは見てないけど、特に考慮はしてないんじゃないかなぁ。
    
    ちなみにMozillaだと英語は99.99％正確だったんですが、
    日本語だとせいぜい数十％くらいでした(感覚的に)。
    日本語がダメな原因は江村さんのmozilla.party 4.0での発表資料 [biglobe.ne.jp]が詳しいです。
    
    # ついでに、自分が参考にしたのはHotWiredの記事 [hotwired.co.jp]で、自分の設定は、この日記 [wakaba.jp]。
    
    シェア
    
    親コメント
    - Re:bogofilterもあるでよ (スコア:2, 参考になる)
      
      by itoshikazu (15602) on 2003年08月27日 1時35分 (#386270)
      
      ちなみにMozillaだと英語は99.99％正確だったんですが、日本語だとせいぜい数十％くらいでした(感覚的に)。
      
      bogofilterは日本語に全く対応していませんから、そんなもんかも知れませんね。
      
      私はbogofilterに通す前にnkf2でUTF8に変換して、それをmecab使って分かち書きにしてます。これでかなり精度高いと思ってます...... でも、良く考えたら、ウチに屆くスパムは中国語、ハングル、英語がほとんどで、日本語のスパムが元々少ないんで、本当の意味で精度が高いのかどうかはわからなかったりしますが。
      
      シェア
      
      親コメント
      - Re:bogofilterもあるでよ (スコア:2, 参考になる)
        
        by cloudy (1160) on 2003年08月27日 11時42分 (#386447)
        
        私もbogofilterですが、日本語はnkfしてkakasiに食わせています。
        procmailのレシピはこんな感じです。
        
        * ? nkf -m -e | kakasi -w | bogofilter
        spam/.
        
        シェア
        
        親コメント
ベイズ推定に関する特集 (スコア:3, 参考になる)

by nobee (11587) on 2003年08月27日 1時24分 (#386265) ホームページ日記

ちょうど３月頃にベイズ推定に関する特集記事が出てましたよ。

グーグル、インテル、MSが注目するベイズ理論 [cnet.com]

まず日本語なのがありがたい。:-) 関連のキーワードを知るのにもお推めです。

--
　／　信号処理技術の解説ページ
☆　「蜂波の窓」 [so-net.ne.jp] 作成中
- Re:ベイズ推定に関する特集 (スコア:1)
  
  by ikemo (901) on 2003年08月27日 1時49分 (#386277)
  
  人工知能とコンピューターの未来を握る『ベイズ理論』 [hotwired.co.jp]
  
  自分が記憶にある中では一番古い記事です。
  当時はBayes理論といえばMS以外の企業の名前を
  ほとんど見た覚えがないのですが、
  今ではいろんな企業や個人が手がけているのでちょっと安心(?)
  
  シェア
  
  親コメント
  - - Re:ベイズ推定に関する特集 (スコア:1)
      
      by rajihkaa (9408) on 2003年08月27日 11時32分 (#386439) ホームページ
      
      >おお、普段のMSのイメージとは違うものを見た気がする。
      
      　MSの研究所で働いているようですね。ペーパー [microsoft.com]とかがありますし、
      各個人のページもあります。
      
      　MSの研究所は優秀な研究者が多いと思いますよ。
      母数もかなり多いけど(笑)。
      
      シェア
      
      親コメント
スラドもベイズ使って (スコア:3, 興味深い)

by za (16346) on 2003年08月27日 2時24分 (#386289)

ひとつひとつのモデで学習させて、コメント中の単語をベイズフィルターにかけて、それぞれのコメントを「フレームの元」の可能性x%、「興味深い」可能性y%、「余計なもの」の可能性z%などと計算してみると面白いかもしれません。
「興味深い」かどうかは単語の頻度だけではきまらないのでベイズフィルタはあまり意味ないでしょうが、一部のフレームの元になるような発言はベイズで計算すれば、スパムの確率97%など計算されると思います。もちろん、フレームの元になるけど、興味深い発言などもあるので、誰か人の目によるチェックはなくせないのですが、、、
SPAM だけでなく (スコア:3, 興味深い)

by ninestars (5792) on 2003年08月27日 3時13分 (#386305) 日記

今後は様々な情報の取捨選択に導入されるかもしれません。
ぱっと考えた例では Kid's filtering proxy など。（既にある？）

判断する為の事前情報が必要ですが、その手間を厭うユーザに対しては、
ある程度情報を与えた状態で出荷する等もできますね。

具体的な例を使用して動作をカスタマイズしていく考え方は、コンピュータを扱うことは
難しいものだと考えがちな層に対して、より分かりやすい使い方を示すものだと思います。
日本語パッチの当て方が (スコア:2, おもしろおかしい)

by AyaseHyo (4259) <{ayase} {at} {weatherattack.org}> on 2003年08月27日 0時56分 (#386248) 日記

上のリンクを見てもさっぱり分からなかったので関連情報無いか漁ってみると
あっさりと発見 [infoseek.co.jp]、無事日本語環境で運用させて貰ってます。

…やっぱ英語読めないって今時ダメですか。ダメですよね。

--

--
くだらなかったあの頃に、戻りたい？戻りたくない？
- Re:日本語パッチの当て方が (スコア:1, 参考になる)
  
  by Anonymous Powered (12649) on 2003年08月27日 9時05分 (#386349) 日記
  
  リンク壊れてますね。
  POPFile 0.19.1 の日本語化(Windows) [infoseek.co.jp]
  
  # はっ。だから「おもしろおかしい」なのか？(汗
  
  シェア
  
  親コメント
日本語パッチ作者直々のタレコミ (スコア:2, 興味深い)

by za (16346) on 2003年08月27日 0時56分 (#386249)

なんですね、
ありがたく使わせてもらいます。
- Re:日本語パッチ作者直々のタレコミ (スコア:1)
  
  by AyaseHyo (4259) <{ayase} {at} {weatherattack.org}> on 2003年08月27日 0時59分 (#386253) 日記
  
  ぐわ、そうだったのか…すぐ上でとんでもない事を書いてしまった気が。
  
  ＃上のコメント共々(-1)を希望。
  
  --
  
  --
  くだらなかったあの頃に、戻りたい？戻りたくない？
  
  シェア
  
  親コメント
誤検地が怖い (スコア:2, 参考になる)

by unagi (2663) on 2003年08月27日 0時57分 (#386250) 日記

私はNortonInternetSecurity2003のSPAMメール警告機能を使って、
メーラー側でSPAMメールを振り分けをしているのですが。
以前、Borlandのビアサーバが当選したという知らせSPAMとして
振り分けられてしまい、危うく見逃す所でした。

それ以来、受信メールには一通り目を通すようにしてるのですが、
こうなってしまうとSPAM避けとしてあまり意味が無くなってしまうんですよね。
- Re:誤検地が怖い (スコア:1, 興味深い)
  
  by Anonymous Coward on 2003年08月27日 3時58分 (#386309)
  
  Norton Internet Security 2003のSPAMメール警告機能って、誤検出が多かったり、Subject強制書き換え以外のフィルタリング機能がなかったりで、かなり低品質な、素人騙し程度のものだと思うのですが……。
  
  シェア
  
  親コメント
  - Re:誤検知が怖い（誤検地改め） (スコア:2, 参考になる)
    
    by unagi (2663) on 2003年08月27日 14時03分 (#386582) 日記
    
    Nortonのこの機能はどういう条件でフィルタしているのかが全くの非公開である点が、不安を増幅させている一因にもなってるかもしれませんです。
    
    Subject強制書き換えをする点については、下手に削除されるよりは良いなぁと思ってます。
    メーラーのフィルタでユーザーがなりふりを自由に出来ますから。
    
    シェア
    
    親コメント
- Re:誤検地が怖い (スコア:1)
  
  by GSone (8994) on 2003年08月27日 9時53分 (#386370) 日記
  
  MacOSXのmailも誤検知をよくやらかします。
  よくあるのが友人の短いメールには反応しないのに長いメールには反応して
  仕分けてしまうというもの。わたしも一応迷惑メールフォルダの件名だけは
  いつも見るようになってしまいました。微妙に意味がないような。
  
  シェア
  
  親コメント
- あまり恐くない (スコア:1)
  
  by ogochan (18) on 2003年08月27日 12時20分 (#386473) ホームページ
  
  私はあまり恐いとは思いませんが。うちは100～300通/日でspamが来るので、この手のフィルタは必須です。
  
  spamとして認識したメールは、spamというフォルダに置くようにして、時々サマリを見ることにしてます。spamとそうでないメールがゴチャゴチャと混ざったものを分類する時は、自分の誤認識や操作ミスが起きがちですが、「ほとんどspamの中から必要なメールを探し出す」というのは、まず操作ミスは起きません。サマリだけざっと見るのは、そんなに負荷じゃないですし。
  
  シェア
  
  親コメント
- - Re:とりあえず疑え (スコア:1)
    
    by unagi (2663) on 2003年08月27日 14時15分 (#386596) 日記
    
    確か何かのアンケートの景品だったと思いますのでSPAM物ではないのですが、
    確かに「温泉旅行当選」がどうのというSPAMメールはフィルターにかかってますね。
    
    シェア
    
    親コメント
フィルタリングするのもいいけど…… (スコア:2, 興味深い)

by znz (2728) on 2003年08月27日 1時27分 (#386266) 日記

メーリングリストの管理者なら自分の管理下のメーリングリストはホワイトリストに入れるなりの対処をしておいてくれないと、フィルタリングしていない一般の購読者はspamばっかり受け取っているのに、管理者は自分のところでフィルタリングしているから気づかないということになります。
本家では (スコア:2, 参考になる)

by za (16346) on 2003年08月27日 14時15分 (#386597)

SPAM発祥の地の本家では度々 [slashdot.org]取り上げられています。
結構なコメントの量なのですが、こんな時に閾値5が
役立ちます。スラドにベイズフィルタを適応するという
アイディアもありました。
Seven Spam Filters Compared [slashdot.org]の元記事(綺麗なコストカーブ [freshmeat.net]あり)ではPOPFileは比べられていないのですが、コメントにPOPFileが一番というコメントもありました。
- ベイズフィルタの肝 (スコア:3, 参考になる)
  
  by za (16346) on 2003年08月27日 15時21分 (#386634)
  
  スラドの投稿にベイズフィルタという案は少し考えが足りませんでした。cid=6043099 [slashdot.org]で、ベイズフィルターは各個人のフィルター(コーパス)やフィルタリングの結果をスパマーが見ることができないというのが肝ということが分かったからです。掲示板にベイズフィルタを適応しても、スパマーが投稿できなかったということがわかるので、投稿できるまで粘るスパマーには意味ないわけです。
  他方2chブラウザのようなクライアント側でベイズフィルタ使うのはNGワードよりよっぽど理にかなっています。そもそもスパムでない投稿をスパムと誤っても被害極小でしょうし、、、ベイズフィルタ付きの掲示板クライアントがあればなぁと思います(*)。
  スパム業者は多くのユーザーのフィルターを一気に知る方法がないので、多くのフィルターを通り抜けるメールを作成することが難しいわけです。(業者は業者でわざと他の業者のスパムをオプトインして色々なフィルターを作って、そのフィルターを通る新しいスパムを日々開発しているのでしょう。)
  学習すればするほど、賢くなるのだから、コーパス共有すればいいのに、、、と思っていましたが、別々に学習し、お互いに学習したことを知らないがために、システムとして賢くなるのですね、、、
  (*)プログラマじゃないので、作れ！とかいわないでください・・・
  #恥ずかしいけど流れ上ID
  
  シェア
  
  親コメント
最近のspamはベイジアンフィルタ対応？ (スコア:2, 参考になる)

by densuke (113) on 2003年08月27日 22時19分 (#386800) 日記

そんな話を聞いたことがあります。
text/plainは差しさわりのなさそうな文面で、text/htmlはしっかりspam。ブラウズする側はtext/htmlの出てしまうMUAを想定したものであるという話です。

日本語のspamとしか思えない売り込みのメールもあたまのほうは「昨日、～だったんですよ。それでは本日のご案内です」とかいう文面をよく見るようになったのですが、これも対策の一環でしょうか。

ちなみに私はtext/htmlが入ったメールはサーバが受信しないように設定しています。これだけで八割方拒否できています。状況が許せばお試しください。

--
-- やさいはけんこうにいちば〜ん！
おおっ! (スコア:1)

by mumumu (13284) <mumumuNO@SPAMmumumu.org> on 2003年08月27日 0時16分 (#386232) ホームページ日記

ベインジアンフィルタの類って、サーバサイドで動作する
ものしか知らなかったので、こういうのって欲しかったん
ですよねー(´ー｀)

#もしこれの他にクライアントサイドのフィルタがあったら
#すみません。

早速導入してみようとおもいます。

--
# 無精、短気、傲慢、これ最強
- Re: クライアントサイドのフィルタ (スコア:4, 参考になる)
  
  by Anonymous Coward on 2003年08月27日 0時27分 (#386237)
  
  ベイズ式フィルタを内蔵しているものなら mozilla系のがありますね。
  
  http://jt.mozilla.gr.jp/mailnews/spam.html
  http://internet.watch.impress.co.jp/www/article/2003/0528/aol.htm
  
  シェア
  
  親コメント
  - Re: クライアントサイドのフィルタ (スコア:3, 参考になる)
    
    by Anonymous Coward on 2003年08月27日 0時31分 (#386239)
    
    spampal [spampal.org]のプラグイン [i-r.co.uk]とかいう手もあり。
    
    シェア
    
    親コメント
  - Re: クライアントサイドのフィルタ (スコア:1, 参考になる)
    
    by Anonymous Coward on 2003年08月27日 15時17分 (#386630)
    
    よく間違われますが、AOL Communicator と Mozilla Mail は
    まったく別のコードベースのようです。
    
    シェア
    
    親コメント
- Mac OS Xだと (スコア:1)
  
  by newmodelx (4227) on 2003年08月27日 15時36分 (#386640) ホームページ日記
  
  AppleのMac OS Xにバンドルされているmail.appにもスパムフィルタ機能があります。
  かなりしっかり選別してくれますが、元ネタになっているものはこれとは別次元の機能なんでしょうか。それとも似たようなもの？
  
  シェア
  
  親コメント
最近のトレンド？ (スコア:1)

by yasunori (1536) on 2003年08月27日 13時16分 (#386527)

SPAMフィルタ以外だと、IDSやDoS攻撃判定でベイズ理論を使う研究が流行りつつあるみたいですね。Anormaly Detection の観点だと、確率モデルを用いて判断することや学習結果をフィードバックできるという点で、使いやすいのでしょう。エキスパートシステムと違って、学習がある程度現実的な範囲でおさまりそうですし。
- Re:最近のトレンド？ (スコア:1)
  
  by pablo (10704) on 2003年08月27日 13時34分 (#386552)
  
  対象は何でも良いので、例えば犯罪やテロの通信のみを傍受するなどの目的でも使えますね。
  
  ＃CIAやFBIあたりがやってそう。
  
  シェア
  
  親コメント
ニューラルネットワークも忘れないで (スコア:1)

by za (16346) on 2003年08月27日 16時17分 (#386660)

ニューラルネットワーク [nitech.ac.jp]を使った
Spamfilter [ucsd.edu]なんていうのもあるようです。
トーマス・ベイズの肖像画 (スコア:1)

by bayesian (17593) on 2003年08月27日 16時47分 (#386668)

はInternational Society for Bayesian Analysis [bayesian.org]で拝めます。
ベイズ理論の論文は他人が投稿したというベイズは18世紀の牧師＆数学者です。

他にも
ベイジアンフィルタの改善 [dreamhost.com]というPaul Grahamの文章の和訳や
Bayesianってどういう考え方なんだろう [aist-nara.ac.jp]など参考になると思います。

#bayesianなのでID
- Re:トーマス・ベイズの肖像画 (スコア:1)
  
  by bayesian (17593) on 2003年08月27日 17時27分 (#386694)
  
  リンク訂正です。
  International Society for Bayesian Analysis [bayesian.org]
  ベイジアンフィルタの改善 [dreamhost.com]
  Bayesianってどういう考え方なんだろう [aist-nara.ac.jp]
  
  ---------------
  Bayesian Songbook [umn.edu]という替え歌集もあります。ISBA行こうかな？
  
  シェア
  
  親コメント
- Re:APOPパッチ？ (スコア:2, 参考になる)
  
  by jishiha (17566) on 2003年08月27日 6時02分 (#386317)
  
  sourceforge に登録されているパッチの情報 [sourceforge.net]によると、バージョン0.20.0で通常機能として盛り込まれることが検討されているみたいです。
  
  シェア
  
  親コメント
- - Re:無駄なメールではない！ (スコア:1)
    
    by kei_sun (15123) on 2003年08月27日 7時46分 (#386329) 日記
    
    そうそう、私の場合は連絡事項をメールに「書く」ことで頭に染み込ませることもあります。
    
    あと、メモ&分類用に自分にメールすることもよくあります。これって周りはやってる人が結構いたので普通だと思ってたんだけど、やってない人が多いのかな。mhなんかはファイルベースの情報管理ツールとして単品でも便利に使えます。
    
    シェア
    
    親コメント
  - Re:無駄なメールではない！ (スコア:1)
    
    by PoketMont (15188) on 2003年08月27日 10時35分 (#386395)
    
    私の場合、「言った言わない」問題の回避したいときのほか、事実関係を誤解なく伝えたいときと、相手にインタラプトを掛けるほ
    ど急を要しない連絡のときはメールです。
    だから、隣の席にいる人にも伝言メモ代わりにメールすることがあります。
    
    少なくとも感覚的には、メールを使うようになってから連絡漏れや話の行き違いでトラブルになるケースは減ったように思います。
    
    シェア
    
    親コメント
    - Re:無駄なメールではない！ (スコア:1)
      
      by kai_kamome (4560) on 2003年08月27日 17時35分 (#386696) ホームページ日記
      
      うんうん、使いかたを間違わなければ、同じフロアだってメールの方がよいです。
      
      > インタラプトを掛けるほど急を要しない
      
      逆に、緊急の用件を同じフロアなのにメールなげておしまいの奴がいるから、始末にこまる。
      
      --
      wild wild computing
      
      シェア
      
      親コメント
- Re:IMAPのプロトコルにSMAP学習機能を (スコア:1)
  
  by harux (9573) on 2003年08月27日 9時29分 (#386357) ホームページ日記
  
  「サーバーに潜る」ってのが、何をしてるのかわかりませんが、
  spamメールは、IMAPにそれ用のフォルダ作って、そこに振り分ければいいだけじゃないですかね。
  時々、誤判定されてないか、そのフォルダを見るようにすれば良いでしょ。
  そして、そのフォルダに溜めたspamメールを、定期的にベイジアンフィルタに食わせると。
  
  シェア
  
  親コメント
- Re:IMAPのプロトコルにSMAP学習機能を (スコア:1)
  
  by densuke (113) on 2003年08月27日 10時26分 (#386387) 日記
  
  私の場合はprocmailでbsfilterを通すようにしています(courier-imapd使用)。
  誤判定(spamが非spamに、非spamがspamに)の場合には、それぞれspam学習用、非spam学習用のIMAPフォルダを作製しておいて、そこに移動させると、一定時間ごとに回収してそれぞれ再学習して振り分けなおしを行ないます。
  
  非spamをspamと思うことはなくなりましたが、まれにspamを非spamという判断をしてくれますが、ほとんどのspamを分類できるので非常に楽になってます。
  
  なお、spamとして届くメールのほぼすべてがhotmailアカウント宛(gotmailで定期的に回収してる)というところがポイント。さすがごみ箱、おかげでいい学習素材になってます。ありがとうhotmail。
  
  --
  -- やさいはけんこうにいちば〜ん！
  
  シェア
  
  親コメント
- - Re:IMAPのプロトコルにSMAP学習機能を (スコア:2, 参考になる)
    
    by Den. (2941) <den@studio-sbs.org> on 2003年08月29日 1時08分 (#387530) ホームページ
    
    えーと、postfix + cyrus-imapd + bsfilter で、実際にやってみた。
    
    うちの日記 [studio-sbs.org]にまとめてあるので、興味のある人はどーぞ。
    
    シェア
    
    親コメント
- Re:フィルタ対策 (スコア:1)
  
  by brake-handle (5065) on 2003年08月27日 11時31分 (#386437)
  
  逆に、手元で使っているSpamAssassinでは、ニュースサイトからのメールに広告が含まれているがゆえにスコアが加算されています。plain textならまだ閾値の1/3ぐらいで済むのですが、HTMLしか送ってくれないところだとスレスレですね。
  
  それ以外に、最近Sobigを検知して送ってくる警告メールが多いですね。うざったいからこれを弾くように設定する手はありますが、そうすると別のウイルスが原因で本当に自分がヤバいブツを送ってしまった時にわからなくなる恐れも(もっともこれに限っては検知ツールの問題もあるが)。
  
  シェア
  
  親コメント
- Re:フィルタ対策 (スコア:1, 興味深い)
  
  by Anonymous Coward on 2003年08月27日 12時58分 (#386503)
  
  英語等では半角スペースを要素の切れ目として使っているので、英語等を使うスパム業者は単語をアンダースコア _ でつないだりしてスパムである確率が高いとされている単語を使わないようにして、フィルタ対策をします。
  
  シェア
  
  親コメント
  - - - Re:フィルタ対策 (スコア:1)
        
        by nazoking (1299) on 2003年08月27日 13時39分 (#386556)
        
        「文字の長さで統計取ってみよう」とか「文字単位で統計取ってみよう」とかを自動で考え出してくれるフィルターは……
        
        シェア
        
        親コメント
- - Re:フィルタ対策 (スコア:1)
    
    by pablo (10704) on 2003年08月27日 13時02分 (#386510)
    
    ベイズ式ですので、個々人（の学習内容）で異なるフィルタリング結果になります。
    よって、あらかじめ（発信者のフィルタで）チェックしても何の意味もないのでは？
    
    シェア
    
    親コメント

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

ベイズ推定で楽々スパムメールをフィルタリング More ログイン

SAProxy (スコア:4, 参考になる)

Re:SAProxy (スコア:1)

Re:SAProxy (スコア:1)

Support Vector Machine (スコア:4, 興味深い)

Re:Support Vector Machine (スコア:1, 興味深い)

Re:Support Vector Machine (スコア:1, 参考になる)

bogofilterもあるでよ (スコア:3, 参考になる)

Re:bogofilterもあるでよ (スコア:3, 参考になる)

Re:bogofilterもあるでよ (スコア:2, 参考になる)

Re:bogofilterもあるでよ (スコア:2, 参考になる)

ベイズ推定に関する特集 (スコア:3, 参考になる)

Re:ベイズ推定に関する特集 (スコア:1)

Re:ベイズ推定に関する特集 (スコア:1)

スラドもベイズ使って (スコア:3, 興味深い)

SPAM だけでなく (スコア:3, 興味深い)

日本語パッチの当て方が (スコア:2, おもしろおかしい)

Re:日本語パッチの当て方が (スコア:1, 参考になる)

日本語パッチ作者直々のタレコミ (スコア:2, 興味深い)

Re:日本語パッチ作者直々のタレコミ (スコア:1)

誤検地が怖い (スコア:2, 参考になる)

Re:誤検地が怖い (スコア:1, 興味深い)

Re:誤検知が怖い（誤検地改め） (スコア:2, 参考になる)

Re:誤検地が怖い (スコア:1)

あまり恐くない (スコア:1)

Re:とりあえず疑え (スコア:1)

フィルタリングするのもいいけど…… (スコア:2, 興味深い)

本家では (スコア:2, 参考になる)

ベイズフィルタの肝 (スコア:3, 参考になる)

最近のspamはベイジアンフィルタ対応？ (スコア:2, 参考になる)

おおっ! (スコア:1)

Re: クライアントサイドのフィルタ (スコア:4, 参考になる)

Re: クライアントサイドのフィルタ (スコア:3, 参考になる)

Re: クライアントサイドのフィルタ (スコア:1, 参考になる)

Mac OS Xだと (スコア:1)

最近のトレンド？ (スコア:1)

Re:最近のトレンド？ (スコア:1)

ニューラルネットワークも忘れないで (スコア:1)

トーマス・ベイズの肖像画 (スコア:1)

Re:トーマス・ベイズの肖像画 (スコア:1)

Re:APOPパッチ？ (スコア:2, 参考になる)

Re:無駄なメールではない！ (スコア:1)

Re:無駄なメールではない！ (スコア:1)

Re:無駄なメールではない！ (スコア:1)

Re:IMAPのプロトコルにSMAP学習機能を (スコア:1)

Re:IMAPのプロトコルにSMAP学習機能を (スコア:1)

Re:IMAPのプロトコルにSMAP学習機能を (スコア:2, 参考になる)

Re:フィルタ対策 (スコア:1)

Re:フィルタ対策 (スコア:1, 興味深い)

Re:フィルタ対策 (スコア:1)

Re:フィルタ対策 (スコア:1)