アカウント名:
パスワード:
ソースを見る限り、Good辞書における距離とBad辞書における距離の線形結合のようです。
っと、ゴメン、定義を間違えてた。線形結合じゃないや。 ええと正しくは、、、ソースから引用したほうが早いか。
要するに、 Dbad/(Dgood+Dbad) のようです。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
開いた括弧は必ず閉じる -- あるプログラマー
最近傍識別 (スコア:1, 興味深い)
2番目の「最近傍識別」(nearest neighbor method)がわかりません。パターン認識関連で使われているようですが。
識別結果として、同じネットワークは同一とみなす、みたいな感じになるのでしょうか?
Re:最近傍識別 (スコア:2, 参考になる)
「何に一番似ているか」を判断(定量化)する技術みたいですね。手書き文字認識とかで使ってるものなんじゃないでしょうか。
> メイル送信者のIPアドレスを4次元の特徴ベクトルとして用いています
これは、オクテットごとに区切ったものを行列(ベクトル)と見なしてるってことかな?127.0.0.1=>(127,0,0,1)みたいな感じで。
で、最近傍識別器というのを使って、受け取ったメールに対して「過去のspamの中で一番特徴が似ているもの」と「過去のhamの中で一番特徴が似ているもの」を探し出して、それぞれ「どの
Re:最近傍識別 (スコア:0)
の説明がほとんどないような気がするんですが
Re:最近傍識別 (スコア:1)
ソースを見る限り、Good辞書における距離とBad辞書における距離の線形結合のようです。
Re:最近傍識別 (スコア:2, 参考になる)
っと、ゴメン、定義を間違えてた。線形結合じゃないや。 ええと正しくは、、、ソースから引用したほうが早いか。
要するに、 Dbad/(Dgood+Dbad) のようです。
Re:最近傍識別 (スコア:1)
この式は,計算してみると分かるんですが,P(spam|Dbad)=1/Dbad, P(non-spam|Dgood)=1/Dgood と置くと(これは確率密度の意味でとらえて下さいね.∞に飛びますから.),Bayes則で事後確率を計算しているという解釈ができます.そういう意味では本質的にBayesian Filterと同じなわけです.弁別度は,[0,1]の値で,Dspam>Dgoodのとき,0.5より小さく,DspamDgoodとき0.5より大きくなります.Dspam=Dgoodのときが0.5です.ですから,弁別度を0.5で閾値処理すれば1-最近傍識別と同じになります.でも最近傍識別のように二者択一の判定ではなく,度合いを表す量が必要と考えて,こういうものを導入しております.この弁別度が例えば0.7以上をスパムと判定するとか,0.3以下はノーマルと見なそうとか,そういうことをやっているわけです.