alpの日記: 今日の散歩 (1) 承前
日記 by
alp
- POPfile の鍛え方 (私家版)
基本的に POPFile は単語の頻度しか見ていません。単語関連等は全く無考慮。従って、inbox/spam の単純振り分けだと判定正答率がさちりやすいと思われます。そこで、以下の基本的作戦を用います。- 自分の受け取るメールを、メールの使用単語である程度カテゴライズして、その分だけバケツを作る。ニュース系の ML と議論系の ML があるなら、当然分けるべき。但し、原理上メールが少ないバケツの正答率は上がらないため、余り細かく分類するのは逆効果だし、分類時間も延びます。私はちょっと特殊なものも受け取っているため 6 バケツにしています。普通は 4 バケツぐらいだと思う。
- 自分のメールのエンベロープに来そうなもの、つまり ISP や、マシン名などは除外単語に登録 (現在の POPfile はエンベロープへの感度が高すぎるため)。自分のメールアドレス自体は spam 判定に有効なので、外さない。
- 雑連絡 ML のようなものは、Magnet 登録で強制的に振り分けてしまう。これはやりすぎに注意だが、効率を上げるには効果絶大。
- 原理的に、誤分類されたメールの正解バケツ先に引き込まれやすくなります。誤分類があまりに多発するようなら、バケツの分割を検討したほうがよい。
あとは普通に誤ったメールを訂正していくことになりますが、この際に誤った分類になったメールの判定を調べ、除外単語の出し入れを再考するとベターです。但し、これはかなり副作用が大きいので慎重に。
- 勢いよく Swen.A が到着中。ナローな私のとこの帯域を一杯に使っているような気も。
- 音楽方面: B.Martinu, Streichquartett Nr.6, Panocha SQ
今日の散歩 (1) 承前 More ログイン