パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

IPアドレスの最近傍識別を行うSPAM Filter」記事へのコメント

  • 最近傍識別 (スコア:1, 興味深い)

    by Anonymous Coward on 2007年04月13日 13時38分 (#1142252)
    1番目「信頼できるメールサーバ(MTA)に接続してきた(相手側)マシンのIPアドレスはReceived:に記録され、偽装されていない」は理解できました。

    2番目の「最近傍識別」(nearest neighbor method)がわかりません。パターン認識関連で使われているようですが。

    識別結果として、同じネットワークは同一とみなす、みたいな感じになるのでしょうか?
    • Re:最近傍識別 (スコア:2, 参考になる)

      by Anonymous Coward on 2007年04月13日 14時40分 (#1142303)
      > 2番目の「最近傍識別」(nearest neighbor method)
      「何に一番似ているか」を判断(定量化)する技術みたいですね。手書き文字認識とかで使ってるものなんじゃないでしょうか。

      > メイル送信者のIPアドレスを4次元の特徴ベクトルとして用いています
      これは、オクテットごとに区切ったものを行列(ベクトル)と見なしてるってことかな?127.0.0.1=>(127,0,0,1)みたいな感じで。

      で、最近傍識別器というのを使って、受け取ったメールに対して「過去のspamの中で一番特徴が似ているもの」と「過去のhamの中で一番特徴が似ているもの」を探し出して、それぞれ「どのくらい違うのか(弁別度)」を判定すると。

      最終的には「過去にspamを送ってきたアドレスと似たようなアドレスからのメールで、かつ似たようなアドレスからhamを受け取ったこともないから多分spam」もしくは「過去にhamを送ってきたアドレスと似たようなアドレスからのメールで、かつ似たようなアドレスからspamを受け取ったこともないから多分ham」という判断になるのかな?

      IPアドレスが地理的/ネットワーク的に偏って存在していることと、同一のマシン(あるいはアドレスが非常に似通ったマシン)からspamとhamの両方が送られてくる機会が少ないことを前提にしてるんだと思う。半分以上推測なので、数学がわかる人のフォロー希望。

      # しかしスラドにはこういう使い方もあったのか。
      親コメント
      • by Anonymous Coward
        「弁別度」
        の説明がほとんどないような気がするんですが

        • by tmiura (6268) on 2007年04月13日 16時03分 (#1142341) 日記

          ソースを見る限り、Good辞書における距離とBad辞書における距離の線形結合のようです。

          親コメント
          • Re:最近傍識別 (スコア:2, 参考になる)

            by tmiura (6268) on 2007年04月13日 16時12分 (#1142345) 日記

            っと、ゴメン、定義を間違えてた。線形結合じゃないや。 ええと正しくは、、、ソースから引用したほうが早いか。

            要するに、 Dbad/(Dgood+Dbad) のようです。

            親コメント
            • by twada (33858) on 2007年04月17日 1時36分 (#1143603) 日記
              説明しなくててごめんなさい.そのとおりです.
              この式は,計算してみると分かるんですが,P(spam|Dbad)=1/Dbad, P(non-spam|Dgood)=1/Dgood と置くと(これは確率密度の意味でとらえて下さいね.∞に飛びますから.),Bayes則で事後確率を計算しているという解釈ができます.そういう意味では本質的にBayesian Filterと同じなわけです.弁別度は,[0,1]の値で,Dspam>Dgoodのとき,0.5より小さく,DspamDgoodとき0.5より大きくなります.Dspam=Dgoodのときが0.5です.ですから,弁別度を0.5で閾値処理すれば1-最近傍識別と同じになります.でも最近傍識別のように二者択一の判定ではなく,度合いを表す量が必要と考えて,こういうものを導入しております.この弁別度が例えば0.7以上をスパムと判定するとか,0.3以下はノーマルと見なそうとか,そういうことをやっているわけです.
              親コメント

長期的な見通しやビジョンはあえて持たないようにしてる -- Linus Torvalds

処理中...