Re:できるのか？ (#1005491) | 総務省がWeb用「ウソ発見器」を開発へ

「総務省がWeb用「ウソ発見器」を開発へ」記事へのコメント

記事ページを表示すべてのコメント取得

検索200コメント Log In/Create an Account

できるのか？ (スコア:2, 興味深い)

by gonta (11642)

メール１つ、ろくにスパムか重要メールか判断できない認識度で。

いや、その分野に真剣に取り組んでいる方に敬意は払いますが、これを提案した連中が果たして実現できると思って提案したのか、予算ぶんどりたいから提案したのか・・・後者のように思えてなりません。

別の人もいっていますが、これが実現できなかったら、このプロジェクト自体ウソのページとして認識してもらわんと。

--
-- gonta --
"May Macintosh be with you"
- Re:できるのか？ (スコア:0)
  
  by Anonymous Coward
  
  オフトピですが、スパムの識別は現時点でもかなり高い精度で出来ますよ。
  一応、英語オンリーな環境であれば97％以上はいくっぽいです。
  日本語環境だとちょっと精度が落ちて90％くらいになりますが。
  
  ベイジアンフィルタによるスパム対策 [opentechpress.jp]
  スパムへの対策 --- A Plan for Spam [dreamhost.com]
  - Re:できるのか？ (スコア:0)
    
    by Anonymous Coward
    
    > オフトピですが、スパムの識別は現時点でもかなり高い精度で出来ますよ。
    
    PopFileは酷かったねえ。学習すればするほど、spamの識別率が下がってしまう。MLに放り込まれたspamの識別率はほぼ0%、つまり素通しだったし。逆にspamまみれのアカウントへ来た非spamの誤認識率も100%、全部spam扱いになっちゃったし。
    
    まあ、これはベイジアンの問題と言うより、ベイジアンの適用方法の間違い、つまりPopFileの実装の問題が理由だけど。
    - Re:できるのか？ (スコア:1)
      
      by Elbereth (17793)
      
      うちだと、POPFileの識別率は日本語spam含めて99%以上ですよ。
      そこまで識別率が悪い場合、POPFileの実装ではなく
      自分の設定や操作がおかしいとは思いませんか?
      - Re:できるのか？ (スコア:4, 興味深い)
        
        by Anonymous Coward on 2006年08月27日 10時15分 (#1005491)
        
        > 自分の設定や操作がおかしいとは思いませんか?
        
        思わない。君はPopFileが何をネタにしてベイズ推定をやっているかを理解しているのかな？
        
        spam/非spamが非常に偏っている場合は、ヘッダのベイズ推定への影響が大きいんだ。MLへ放り込まれたspamがほぼ大通しになってしまうのはこれが理由。この場合、学習すればする程、この傾向（ヘッダ重視）は強くなるよ。
        spamまみれのアカウントへの非spamメールだけど、ちょっと言い足りなかった。希にしか連絡を寄越さないヤツからのメールがspamとされてしまう、という話。spam/非spamの表現（使用している単語）がばらついた状態であると、非spamメールを分離するだけの閾値を稼げないんだ。
        
        PopFileダメダメじゃん、じゃあ自前で作るか、てんで本文に重みを置くベイズフィルタを作った。PopFileの問題はほとんど解消されたけど、やはり誤認識はあるんでね。spamが非spamとされるのはウザイが許容できたとしても、非spamがspamとされてしまうの許容できないんで、結局ベイズのフィルタリングは止めちゃった。
        今はpostfixのポリシーデレゲーションを使ってエンベロープ情報でフィルタするようにしてあるんだけど、毎日5000通程度来るspamで通してしまうのが10通程度なんで、まあ良いかなと思ってる。非spamの誤認識は無いしね。
        
        シェア
        
        親コメント
        
        Re:できるのか？ (スコア:0)
        
        by Anonymous Coward
        
        ちなみに、SpamAssassinでは「本文に含まれるURLのブラックリスト」を最大の手がかりにしています。
        ベイズはおまけ程度で、デフォルトの設定ではベイズで99%クロという結果が出てもそれだけではspam判定されません。
        一見ローテクですが、これに勝る判定法は今のところないようです。

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

総務省がWeb用「ウソ発見器」を開発へ More ログイン

「総務省がWeb用「ウソ発見器」を開発へ」記事へのコメント

できるのか？ (スコア:2, 興味深い)

Re:できるのか？ (スコア:0)

Re:できるのか？ (スコア:0)

Re:できるのか？ (スコア:1)

Re:できるのか？ (スコア:4, 興味深い)

Re:できるのか？ (スコア:0)

スラド