アカウント名:
パスワード:
クロールされたくないとか? まあ最近のGooglebotはヘッドレスChromiumなのでJavaScriptの解析ごとき余裕のよっちゃん(死語)だが。さあ早く画像をスキャンしたPDFでお詫びを掲載する作業に戻るんだ
総務省なんかはInternetArchiveにクロールされたくないらしく、狙い撃ちで弾いてるんですよね
User-agent: ia_archiverDisallow: /
https://www.soumu.go.jp/robots.txt [soumu.go.jp]
とは言え、総務省など国家機関のウェブサイトは国立国会図書館がアーカイブ対象にしているから、Internet Archiveなど他のアーカイバを排除していても支障はない。
https://warp.da.ndl.go.jp/info:ndljp/pid/235321/www.soumu.go.jp/index.html [ndl.go.jp]
えー、でも例えば www.kantei.go.jp/ はここ12年ほど収集されてないように見えるけど。https://warp.da.ndl.go.jp/waid/3594 [ndl.go.jp]>首相官邸 / / 内閣官房>http://www.kantei.go.jp/[保存日:2004/11/19 - 2009/08/19 ]
狙い撃ちは酷いですね。クローラー全てとかならまだわかるけど。
Googleフォトにアップロードした写真が書類風味だと「画像からテキストをコピー」とかサジェストしてきてそこそこの精度でテキスト化できるんですよねなんで、埋め込みテキストなしの画像化したPDFだってGoogleにかかれば余裕のよっちゃんでテキスト化してインデックス化すると思いますよ
すでにやってるでしょ。画像の組み合わせだけのPDFファイルが検索で引っかかるんだから。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
日本発のオープンソースソフトウェアは42件 -- ある官僚
クロールbotなどが (スコア:0)
クロールされたくないとか? まあ最近のGooglebotはヘッドレスChromiumなのでJavaScriptの解析ごとき余裕のよっちゃん(死語)だが。
さあ早く画像をスキャンしたPDFでお詫びを掲載する作業に戻るんだ
Re: (スコア:0)
総務省なんかはInternetArchiveにクロールされたくないらしく、狙い撃ちで弾いてるんですよね
https://www.soumu.go.jp/robots.txt [soumu.go.jp]
Re: (スコア:0)
とは言え、総務省など国家機関のウェブサイトは国立国会図書館がアーカイブ対象にしているから、Internet Archiveなど他のアーカイバを排除していても支障はない。
https://warp.da.ndl.go.jp/info:ndljp/pid/235321/www.soumu.go.jp/index.html [ndl.go.jp]
Re: (スコア:0)
えー、でも例えば www.kantei.go.jp/ はここ12年ほど収集されてないように見えるけど。
https://warp.da.ndl.go.jp/waid/3594 [ndl.go.jp]
>首相官邸 / / 内閣官房
>http://www.kantei.go.jp/[保存日:2004/11/19 - 2009/08/19 ]
Re: (スコア:0)
狙い撃ちは酷いですね。
クローラー全てとかならまだわかるけど。
Re: (スコア:0)
Googleフォトにアップロードした写真が書類風味だと「画像からテキストをコピー」とかサジェストしてきてそこそこの精度でテキスト化できるんですよね
なんで、埋め込みテキストなしの画像化したPDFだってGoogleにかかれば余裕のよっちゃんでテキスト化してインデックス化すると思いますよ
Re: (スコア:0)
すでにやってるでしょ。
画像の組み合わせだけのPDFファイルが検索で引っかかるんだから。