スパムフィルターを高速化するには?
タレコミ by headless
headless 曰く、
本家/.「Ask Slashdot: Speeding Up Personal Anti-Spam Filters?」より私は着信するメールを振り分けるためにProcmailを数年間使っているが、使っているうちにスパムのパターンリストが長くなってきた。パターンを使用する利点としては、実質的に間違いがないということだ。新しいスパムを2回以上見ることはなく、必要なメールが失われることもない。処理は1行に1つのパターンを含むスパムパターンファイルを使い、「egrep -F」を実行することで実現している。シンプルな処理ではあるが、パターンリストが長くなるにつれて処理に時間がかかるようになり、CPUパワーの消費も増えてきた。現在のところ平均的なメールを処理するのに15秒程度要する。つまり、次第に使いにくくなっており、もっと効率の良い方法に切り替えたいと思う。今のところ考えているのは小さなインデックス化されたデータベースを使うといったような方法だ。皆さんが自分で使うとしたらどのような方法を選ぶだろう。SQLiteは目的にあっているだろうか。