パスワードを忘れた? アカウント作成
13387448 journal
インターネット

route127の日記: スクレーパ 1

日記 by route127

表のLinkedInのスクレーパの件、タイトルの「スクレイピングをブロックしないよう命ずる」とかACコメントの「スクレイピングが公然化したのっていつ頃なんだろ」とかでいう「スクレイピング」というのは何を指すんだろうか。
人間がブラウザ等を通じて行うアクセスとは異なる短時間に集中的なアクセスを行うことをスクレイピングと言っているのか?
ちょうど7年前の同時期の記事に岡崎市立中央図書館の事件(いわゆるLibrahack事件)があるが、そういった集中的なアクセスについて特にスクレイピングという言葉は出てこなかった気がする。
となると一時期よく耳にしたマッシュアップみたいなさまざまなサイトの情報を組み合わせたり、Webサイトの継時的な変化を記録したりすること、データの二次利用まで含めてがスクレイピングなのか?
それとも今回のニュースのように事業化して収益出すところまでがスクレイピングなのか?
最後の例は極端かもしれないがスクレイピングも金が絡むと話が一気に生臭くなる気がするし。
実際以前読んだアンチスクレイピングの話でもECサイトの値付けの話が例に出ていた。
この間のMakeGirls.moeについても元データの2次利用については著作権の観点からツリーが出来てたが、画像を収集すること自体については問題とはしてないのか。

スクレイピングの定義については今年出た『みんなの検索が医療を変える:医療クラウドへの招待』で、「スクレイプ」を「本来の目的とは違った意図で不正にデータを取得すること」(p.158)と定義していた。
僕はこの定義に合意しないし、この定義を非常に不愉快に感じるのだが、では自分はスクレイピングをどう定義してるのか、というと冒頭の話題に戻るわけでよく分からないというのが正直なところ。
どちらかというと「スクレイピングをする」というより「スクレーパ(クローラ+パーサ)を書く」という感じに近いような気はする。
確かに二次利用を前提としてデータを抽出するためにスクレーパを書くので多少の後ろめたさはあって、例えば以前に熊谷千葉市市長問題を書いた時もそうだが、日記に書いて世の中に還元しようとしたり、ソースは判定部分のみにしたというのはある。
(首長の氏名を入手するのにクローラは必須ではないこともある。)

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by nnnhhh (47970) on 2017年08月23日 12時01分 (#3265927) 日記

    「クロール」よりはセマンティクスに重点を置いたデータ収集、ぐらいのイメージでしたが、

    > 本来の目的とは違った意図で不正にデータを取得すること
    スクレイピングにそんな微妙な意味が込められて来てるのか…

    「ハッカー」みたいにニュアンスがズレてく事態になりそうですな

typodupeerror

物事のやり方は一つではない -- Perlな人

読み込み中...