
Google、robots.txtの仕様のWeb標準化を目指す 30
ストーリー by hylom
標準化されてなかったのか 部門より
標準化されてなかったのか 部門より
Googleが、検索エンジンなどのクロールボット(クローラ)に対しクロール禁止などの指示を出すためのファイル「robots.txt」の仕様の標準化を目指すことを発表した(ドラフト案、ITmedia)。
robots.txtの仕様は「REP(Robots Exclusion Protocol)」や「Robots Exclusion Standard」などと呼ばれている。多くのクローラはこのファイルを確認してクロール頻度やインデックスの制御を行っているが、標準化されていないためにクローラによって解釈が異なったり、一部のクローラのみが認識するディレクティブが存在するといった状況になっていた。
あわせてGoogleはrobots.txtを解釈するためのライブラリ「robotstxt」も公開している。
URLに拡張子を入れるな! (スコア:1)
クールなURIは変わらない
https://www.kanzaki.com/docs/Style/URI [kanzaki.com]
URIに「robots.txt」のように拡張子を入れるべきではありません。
将来、テキストファイルが使われなくなるかもしれないからです。
「robots」にすべきです。
Re:URLに拡張子を入れるな! (スコア:2)
根本的に勘違いしてるで。
取得できるリソースのフォーマットがテキストファイルであることを示すために、「txt」拡張子がついてるんやで?
もしテキストファイルでなくなったとしたら、あわせて別の拡張子に変えたらええんや。よって、拡張子をなくすべきだという根拠にならへんな。
URIに内部仕様を含めてしまうのは愚かやが、外部仕様は別や。
Re:URLに拡張子を入れるな! (スコア:1)
そのURL、昔は http://www.kanzaki.com/docs/Style/URI [kanzaki.com] じゃなかったっけ? (なおリダイレクトはする模様)
マジレスしとくと、これからつけるなら当然拡張子は省略すべきだが、すでに robots.txt という名前で広く知られているものを変えるのはむしろ「クールなURIは変わらない」の趣旨に反している
Re: (スコア:0)
ASCIIコード体系が滅ぶとでも?
Re: (スコア:0)
ローマ人がローマが滅ばないと思っていたとでも?
Re: (スコア:0)
URIが使われなくなるかもしれないのに?
Re: (スコア:0)
実際GoogleはURIを滅ぼしたがってるしスマホアプリになってURIは消えつつあるな
そもそも検索エンジンから消すのにわざわざこっちが作るのか (スコア:0)
なんで検索エンジンからの収集されないようにしたい人がRobots.txtを作らないとダメなんだろう。
むしろ収集させてくださいってお願いに来るべきだろう。
SEO対策だの検索エンジンから上位に上げたい人は好きにやってくれって感じ
正直標準化しようが 収集を勝手にするなといいたい
Re:そもそも検索エンジンから消すのにわざわざこっちが作るのか (スコア:2)
一応ここ「ワールドワイド」ウェブなので…
Re: (スコア:0)
なんでデータを収集されたくない人間がWebにリソースを公開しているんだろう?
Re: (スコア:0)
別に、普通にクローズドな仲間内の情報交換の為のHPだってあるだろ。
そういう場合は収集されたくはないわな。
Re: (スコア:0)
そういう場合はHPを鍵垢にしておけばいいのでは?
Re: (スコア:0)
え?
Re: (スコア:0)
Webって駅の掲示板ですよ。誰でも見えるし、大勢に見せるための物。
たとえ隅っこの誰も見ないようなとこでも公開情報に変わりない。
見せたくないものはWebに載せない、載せるなら鍵をかけるのが当たり前。
Re: (スコア:0)
一般のウェブサイトでどうやったら鍵垢になるの?
Re: (スコア:0)
認証について勉強しろ
Re: (スコア:0)
むしろ収集させてくださいってお願いに来るべきだろう。
なんでデータを収集されたくない人間がWebにリソースを公開しているんだろう?
Aさん 「ストリートビューにのせるなら各戸から了承を得ろ」
Bさん 「ストリートビューにのせたくないなら住むな」
みたいな?
Re: (スコア:0)
それよりも電話帳の方が近いのでは
Re: (スコア:0)
でも実際ストビュー避けできてる地区もありますよね
Re: (スコア:0)
撤回に終わったスラドの新システム
なして「スクリプト経由の表示に」したのかを知りたいところ
Re: (スコア:0)
ダークウェブ「え?」
Re: (スコア:0)
> なんで検索エンジンからの収集されないようにしたい人がRobots.txtを作らないとダメなんだろう。
そっちの方が社会的なコストが安くて済むから
現状は(収集許可 ≫ 収集不許可)なので、不許可の少数がコストを支払う方が全体として安くすむ
不等号が逆になったらデフォルト不許可で robots.txt を書いた人だけ収集ということもありえる。
Re: (スコア:0)
世界中の人に読まれてもいいものだけウェブに置いとけよ。
Re: (スコア:0)
無断リンク禁止☆ミ
5年後... (スコア:0)
そこにはJSONとなったrobots.jsonがいた...
#JSON氏ね!!
Re: (スコア:0)
#JSON氏ね!!
なんで?
親でも頃されたの?
Re: (スコア:0)
湖のそばでキャンプしてたんだろ
Re: (スコア:0)
25年間変わらなかったデファクトスタンダードが5年ぽっちで変わるかね?
Re: (スコア:0)
流石に四半世紀は経ってないだろ、と思ったら Wikipedia の記事に...
> "robots.txt" は、1994年ごろWebCrawlerという検索エンジンで働いていた Martijn Koster が考案したとされている。1994年6月に robots-request@nexor.co.uk というメーリングリストのメンバーが合意して生まれた[1]。"robots.txt" はその翌年AltaVistaなどの検索エンジンが登場すると共に一般化していった。
あの時代からもうそんなに経つのか…
Re: (スコア:0)
JSONという聞いたこともない気味の悪い拡張子…