パスワードを忘れた? アカウント作成
661570 journal

alpの日記: 今日の散歩 (1) 承前

日記 by alp
  1. POPfile の鍛え方 (私家版)
    基本的に POPFile は単語の頻度しか見ていません。単語関連等は全く無考慮。従って、inbox/spam の単純振り分けだと判定正答率がさちりやすいと思われます。そこで、以下の基本的作戦を用います。
    • 自分の受け取るメールを、メールの使用単語である程度カテゴライズして、その分だけバケツを作る。ニュース系の ML と議論系の ML があるなら、当然分けるべき。但し、原理上メールが少ないバケツの正答率は上がらないため、余り細かく分類するのは逆効果だし、分類時間も延びます。私はちょっと特殊なものも受け取っているため 6 バケツにしています。普通は 4 バケツぐらいだと思う。
    • 自分のメールのエンベロープに来そうなもの、つまり ISP や、マシン名などは除外単語に登録 (現在の POPfile はエンベロープへの感度が高すぎるため)。自分のメールアドレス自体は spam 判定に有効なので、外さない。
    • 雑連絡 ML のようなものは、Magnet 登録で強制的に振り分けてしまう。これはやりすぎに注意だが、効率を上げるには効果絶大。
    • 原理的に、誤分類されたメールの正解バケツ先に引き込まれやすくなります。誤分類があまりに多発するようなら、バケツの分割を検討したほうがよい。

    あとは普通に誤ったメールを訂正していくことになりますが、この際に誤った分類になったメールの判定を調べ、除外単語の出し入れを再考するとベターです。但し、これはかなり副作用が大きいので慎重に。

  2. 勢いよく Swen.A が到着中。ナローな私のとこの帯域を一杯に使っているような気も。
  3. 音楽方面: B.Martinu, Streichquartett Nr.6, Panocha SQ
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

私は悩みをリストアップし始めたが、そのあまりの長さにいやけがさし、何も考えないことにした。-- Robert C. Pike

読み込み中...