パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

コンテンツフィルタは欠陥技術」記事へのコメント

  • by take0m (4948) on 2001年10月04日 15時11分 (#26846) 日記
    URLをフィルタするタイプと、内容を判断するタイプがあるのかな?前者はYahooタイプで、人力が頼り。後者はGoogleタイプで、プログラムの質が頼り。

    ページの内容をプログラムで判断するというのは、意味解析まで必要ですから、非常にパワーが要求される処理になります。現状のフィルタソフトはもちろんそこまではやってないでしょうけど。フィルタのような大量のトランザクションをリアルタイムで処理すると、コストが掛かりすぎな気がします。
    なので実際のフィルタソフトでは、形態素解析して名詞句で判断くらいまででしょうね。それに重み付けとかHTMLの解釈をアペンドしたりとか。そうなると、テロを支援するページも、テロを解説したページも、ばっさりとNGにすることしか出来なくなっちゃいますね。ジャストシステムのコンセプトベースなども形態素解析して情報を多次元空間上のベクトルとして認識しています。

    URLフィルタの方は、いかんせんメンテコストがかかりすぎだと思いますね。Yahooのように万人が必要とするサービスなら、どこか1社が必死こいてデータ集めてもいいのでしょうが・・・

最初のバージョンは常に打ち捨てられる。

処理中...