hylomの日記: ユーザー日記に適用しているスパムフィルタの話 3
日記 by
hylom
/.Jのユーザー日記で行っているスパムフィルタの話が話題になっているようなのでちょっとコメントを。
基本的には、スパム投稿および不適切な投稿をブロックする設定を行っています。
たとえば「s*x」「p*rn」「vi*gra」「imp*tence」などの性的なキーワードや過去のスパム投稿で誘導先として書かれていたURLを含む投稿はブロックされます。
また、URLを多数含む投稿もブロックしています。以前までは10件以上のURLを含むとブロック対象とするように設定しましたが、リンクが多すぎてブロックされた、という話があったので15件に緩和しました。
このスパムフィルタについてはそれぞれの日記記事ごとに適用されますので、15件以上のリンクを書きたい場合は複数の記事に分割すればOKです。
リンク多数ページについてはblack list制にして欲しいなぁ (スコア:1)
あるいは、White listに関してはカウントしない、というのでもいい。
http://srad.jp/comments.pl?sid=516323&cid=1871553 [srad.jp]
のように、Linuxのソースコードのようなものを議論するときは、LXRなどのリンクを大量に貼り付けることになるので、単純にリンクの数を制限されると、一度に議論できる分量があまりにも制限されて、困る。このコメントでも、途中の追跡を一部省略してギリギリ15に収めている。
# 定義がどこで、それがどこで利用されているのだが、関数を何度もジャンプして結局どこで代入が行われて…
# と、疑似オブジェクト指向プログラムのコードを追跡する様を示すのはリンクがたくさん必要なのです。
複数の日記に分けるのはこういう場合、解決になりません。だって、複数の指定した日記をコメント付きで表示する機能がない。
ダミー日記を作ってコメントで対処するという方法は、コメントの変更方法がないため、これまた望ましくない。
対策しようとするとリンクと white/black リストとのマッチングテストをやる必要があるので、それはそれは大変である、というのは判りますが…
fjの教祖様
Re:リンク多数ページについてはblack list制にして欲しいなぁ (スコア:1)
カルマでWhitelist作るというのはどうでしょうか。
積極的に議論してるような人ならたいていカルマはたっぷりのはずだし、ストーリーを盛り上げるのに貢献しているということで、それくらいの特権があったほうがみんな積極的に議論に参加するんじゃないかな。
捨てアカでリンク張りまくったspamエントリを作れなくなるするのであればこれでいけるのでは?
しもべは投稿を求める →スッポン放送局がくいつく →バンブラの新作が発売される
Re:リンク多数ページについてはblack list制にして欲しいなぁ (スコア:1)
…これは2種類の解決策が書いてあるように見える。どちらだか判らない。どちらであっても面白い。
1の方法はリンクの数をチェックするときにカルマ値を使って上限値を変動させる、という考え方。カルマ値の高い人を信頼しよう、というモデル。
カルマ値を上げる方法に裏技がないならば、これは多分有効に働くし、おそらくコード上の負荷もあまり大きくない。
2の方法は、カルマ値の高い人が参照するアドレスを White List 化して、それらについてはリンクを張っても勘定に入れない事にしよう、というもの。こちらの方がより多くの人をハッピーにできる(カルマ値が低くても、カルマ値の高い人と同じアドレスを使っていれば、限界を超えないのだから)。
ただし、こちらは2つの問題がある。
1つ目の問題は、計算機リソースをより大量に食う、と言う事。
- 定期的にカルマ値の高い人の日記をスキャンしてリンクを引っ張り出す必要がある。これは今までの処理とは全く別にコストを必要とする
- おそらく古すぎるリンクは使えないだろうから、スキャン対象を絞らなくちゃいけないが、これが try and error になる
- リンクが張ってある日記を受け取るたびに white list とのマッチングを調べなくちゃいけない。hashを使うだろうからCPUはさほど食わないだろうけれど、メモリは食いまくる。
2つ目の問題は、「アドレスってどこまで?」という問題。例えば私のメインのホームページは
http://www.dd.iij4u.or.jp/~okuyamak/ [iij4u.or.jp]
よりも下にファイルが全部置いてある。決して http://www.dd.iij4u.or.jp/ [iij4u.or.jp] じゃない。この下にはいくつかエロいページもあり、そちらは White List の対象になって欲しくないはずだ。でも、じゃぁ、どこかに http://www.dd.iij4u.or.jp/~hahha/ [iij4u.or.jp] というリンクがあってそれが素晴らしい情報を開示してたら? http://www.dd.iij4u.or.jp/~hehhe/ [iij4u.or.jp] はエロサイトだったら?? White List はどのようにして「ここより下」を区別すればいいだろう? できればあまりCPU/メモリリソースを消費せずに。
全部個別に持つ? 多分どこかで White List が巨大になりすぎる。なんらかしらの共通項目を見つけ出せないと困るだろう。
.
個人的には2番の方が有効性が高いと思う。でも2が実装できるのか?? は情報不足で判らない。
1番はあまり強力ではないが、実装しやすい。
fjの教祖様