パスワードを忘れた? アカウント作成
280751 journal

hylomの日記: ユーザー日記に適用しているスパムフィルタの話 3

日記 by hylom

/.Jのユーザー日記で行っているスパムフィルタの話が話題になっているようなのでちょっとコメントを。

基本的には、スパム投稿および不適切な投稿をブロックする設定を行っています。

たとえば「s*x」「p*rn」「vi*gra」「imp*tence」などの性的なキーワードや過去のスパム投稿で誘導先として書かれていたURLを含む投稿はブロックされます。

また、URLを多数含む投稿もブロックしています。以前までは10件以上のURLを含むとブロック対象とするように設定しましたが、リンクが多すぎてブロックされた、という話があったので15件に緩和しました。

このスパムフィルタについてはそれぞれの日記記事ごとに適用されますので、15件以上のリンクを書きたい場合は複数の記事に分割すればOKです。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • あるいは、White listに関してはカウントしない、というのでもいい。

    http://srad.jp/comments.pl?sid=516323&cid=1871553 [srad.jp]
    のように、Linuxのソースコードのようなものを議論するときは、LXRなどのリンクを大量に貼り付けることになるので、単純にリンクの数を制限されると、一度に議論できる分量があまりにも制限されて、困る。このコメントでも、途中の追跡を一部省略してギリギリ15に収めている。
    # 定義がどこで、それがどこで利用されているのだが、関数を何度もジャンプして結局どこで代入が行われて…
    # と、疑似オブジェクト指向プログラムのコードを追跡する様を示すのはリンクがたくさん必要なのです。

    複数の日記に分けるのはこういう場合、解決になりません。だって、複数の指定した日記をコメント付きで表示する機能がない。
    ダミー日記を作ってコメントで対処するという方法は、コメントの変更方法がないため、これまた望ましくない。

    対策しようとするとリンクと white/black リストとのマッチングテストをやる必要があるので、それはそれは大変である、というのは判りますが…

    --
    fjの教祖様
    • カルマでWhitelist作るというのはどうでしょうか。
      積極的に議論してるような人ならたいていカルマはたっぷりのはずだし、ストーリーを盛り上げるのに貢献しているということで、それくらいの特権があったほうがみんな積極的に議論に参加するんじゃないかな。

      捨てアカでリンク張りまくったspamエントリを作れなくなるするのであればこれでいけるのでは?

      --
      しもべは投稿を求める →スッポン放送局がくいつく →バンブラの新作が発売される
      親コメント
      • …これは2種類の解決策が書いてあるように見える。どちらだか判らない。どちらであっても面白い。

        1. 「カルマボーナス」として、用いるリンク数を増やせる
        2. カルマ値の高い人の日記をスキャンして、white list を作る

        1の方法はリンクの数をチェックするときにカルマ値を使って上限値を変動させる、という考え方。カルマ値の高い人を信頼しよう、というモデル。
        カルマ値を上げる方法に裏技がないならば、これは多分有効に働くし、おそらくコード上の負荷もあまり大きくない。

        2の方法は、カルマ値の高い人が参照するアドレスを White List 化して、それらについてはリンクを張っても勘定に入れない事にしよう、というもの。こちらの方がより多くの人をハッピーにできる(カルマ値が低くても、カルマ値の高い人と同じアドレスを使っていれば、限界を超えないのだから)。
        ただし、こちらは2つの問題がある。

        1つ目の問題は、計算機リソースをより大量に食う、と言う事。
        - 定期的にカルマ値の高い人の日記をスキャンしてリンクを引っ張り出す必要がある。これは今までの処理とは全く別にコストを必要とする
        - おそらく古すぎるリンクは使えないだろうから、スキャン対象を絞らなくちゃいけないが、これが try and error になる
        - リンクが張ってある日記を受け取るたびに white list とのマッチングを調べなくちゃいけない。hashを使うだろうからCPUはさほど食わないだろうけれど、メモリは食いまくる。

        2つ目の問題は、「アドレスってどこまで?」という問題。例えば私のメインのホームページは
                http://www.dd.iij4u.or.jp/~okuyamak/ [iij4u.or.jp]
        よりも下にファイルが全部置いてある。決して http://www.dd.iij4u.or.jp/ [iij4u.or.jp] じゃない。この下にはいくつかエロいページもあり、そちらは White List の対象になって欲しくないはずだ。でも、じゃぁ、どこかに http://www.dd.iij4u.or.jp/~hahha/ [iij4u.or.jp] というリンクがあってそれが素晴らしい情報を開示してたら? http://www.dd.iij4u.or.jp/~hehhe/ [iij4u.or.jp] はエロサイトだったら?? White List はどのようにして「ここより下」を区別すればいいだろう? できればあまりCPU/メモリリソースを消費せずに。

        全部個別に持つ? 多分どこかで White List が巨大になりすぎる。なんらかしらの共通項目を見つけ出せないと困るだろう。

        .

        個人的には2番の方が有効性が高いと思う。でも2が実装できるのか?? は情報不足で判らない。
        1番はあまり強力ではないが、実装しやすい。

        --
        fjの教祖様
        親コメント
typodupeerror

192.168.0.1は、私が使っている IPアドレスですので勝手に使わないでください --- ある通りすがり

読み込み中...