パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

米国家安全保障局、気付かずに一日数GBのスパムを収集していた」記事へのコメント

  • by Anonymous Coward on 2013年10月18日 12時18分 (#2479198)

    公開されているBaidu のコーパス [baidu.jp]を思い出しました。
    クロールしているテキストに、スパム業者のものっぽいデータが混ざっており、
    スパムならではの同文のコピペにより、 N-gram で出現頻度の高いものとして扱われてしまうようです。

    5-gram の笑えるデータの例では、
    「ご、近所、人妻、と、即」だとか、
    「円、で、着メロ、全曲、取り」とか、
    通常使わない日本語がたくさん見つけられます。

    Baidu の名誉のために書いておきますが、スパムと思われる箇所以外は有用なデータです。
    ネットでデータを公開して頂いてるのには感謝しています。

    • by Anonymous Coward

      あれ、使い出がありますよね。
      ブラックボックスなフィルタリングや抽出がされていない生データなので、その方がよいです。
      それこそ、不要情報のフィルタリングや有益情報の抽出の研究にもってこい。

長期的な見通しやビジョンはあえて持たないようにしてる -- Linus Torvalds

処理中...