パスワードを忘れた? アカウント作成

「デジタル庁創設に向けた準備サイト」はJavaScript無効でも閲覧可能であるべきか?」記事へのコメント

  • by Anonymous Coward on 2021年04月30日 18時50分 (#4023435)

    クロールされたくないとか? まあ最近のGooglebotはヘッドレスChromiumなのでJavaScriptの解析ごとき余裕のよっちゃん(死語)だが。
    さあ早く画像をスキャンしたPDFでお詫びを掲載する作業に戻るんだ

    ここに返信
    • by Anonymous Coward

      総務省なんかはInternetArchiveにクロールされたくないらしく、狙い撃ちで弾いてるんですよね

      User-agent: ia_archiver
      Disallow: /

      https://www.soumu.go.jp/robots.txt [soumu.go.jp]

      • by Anonymous Coward

        とは言え、総務省など国家機関のウェブサイトは国立国会図書館がアーカイブ対象にしているから、Internet Archiveなど他のアーカイバを排除していても支障はない。

        https://warp.da.ndl.go.jp/info:ndljp/pid/235321/www.soumu.go.jp/index.html [ndl.go.jp]

        • by Anonymous Coward

          えー、でも例えば www.kantei.go.jp/ はここ12年ほど収集されてないように見えるけど。
          https://warp.da.ndl.go.jp/waid/3594 [ndl.go.jp]
          >首相官邸 / / 内閣官房
          >http://www.kantei.go.jp/[保存日:2004/11/19 - 2009/08/19 ]

      • by Anonymous Coward

        狙い撃ちは酷いですね。
        クローラー全てとかならまだわかるけど。

    • by Anonymous Coward

      Googleフォトにアップロードした写真が書類風味だと「画像からテキストをコピー」とかサジェストしてきてそこそこの精度でテキスト化できるんですよね
      なんで、埋め込みテキストなしの画像化したPDFだってGoogleにかかれば余裕のよっちゃんでテキスト化してインデックス化すると思いますよ

      • by Anonymous Coward

        すでにやってるでしょ。
        画像の組み合わせだけのPDFファイルが検索で引っかかるんだから。

物事のやり方は一つではない -- Perlな人

処理中...