パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

伊万里市ホームページがGoogle八分に。外部からの助言で10日目に復帰するも……」記事へのコメント

  • by Anonymous Coward

    昔の人は知らないかもしれませんが、今はWebサイトを作ったら必ず「サチコ」(Google Search Console)に登録するのが今の常識です。
    そこに登録すれば、robots.txt の文法やレスポンスコードに問題がある場合なども、メールとサチコサイト上で教えてくれます。
    誰にも見てもらえなくても構わないサイトを除ければ、使わないという選択肢は最早ありません。

    その他にも、
    ・Google セーフブラウジングがマルウェア配信サイトと認識した場合の通知
    ・DMCA申請があった場合の通知
    ・逆SEOによるスパムリンクを張られた場合の通知と、リンクの否認手続き
    にもサチコ登録が必須です。

    • by Anonymous Coward

      まーた本質に無関係な知識ひけらかしマンか

      • このストーリーの
        「クローラの従うべき動作を定義したrobot.txtへのアクセスも500エラーとなり、Googlebotがサイトをクロールして検索結果に表示して構わないかどうかの判断が不可能になってしまった」
        の場合、サーチコンソールで通知を受けられるので、思いっきり関係あるのですが。
        ちなみに「robot.txt」は誤りで「robots.txt」ですね。

        サチコ登録していたら原因がすぐ分かって修正できたわけですからね。

        • by Anonymous Coward

          そうですね
          異を唱えている方は
          正しくサイト管理をしたことがない方なんじゃないでしょうかね
          Google Search Console [google.com]を踏まえずに管理してるとか有り得ない怠慢ですから
          Google Analytics [google.com]使っていればそのサジェストも入りますので
          恐らくそれすら使ったことないんじゃないでしょうか

          # ついでにBing Webmaster Tools [bing.com]も抑えておかないとかな

          • by Anonymous Coward

            伊万里市のホームページにGoogle Analyticsのコードは入ってる
            伊万里市のホームページがGoogle Search Consoleに登録されてるかどうかは定かではない
            仮に登録されていたとして、そこから担当者が原因を推察できなければ無意味
            ただ「500エラー出てますよ」ってだけならIISのログ見ても確認できる話
            そもそもホームページが改築された2020年3月からずっとこの状態だった [twitter.com]ので
            今になってそれが原因で検索結果から除外されたことに思い至らなかったのだと思う
            サチコ以前の問題

            • by Anonymous Coward on 2021年09月01日 23時59分 (#4103873)

              > 仮に登録されていたとして、そこから担当者が原因を推察できなければ無意味
              実際に robots.txt 関係のエラーを発生させれば分かりますが、「原因を推察」する必要もないほどはっきりとしたエラー送ってきますよ。

              > ただ「500エラー出てますよ」ってだけならIISのログ見ても確認できる話
              それはそうでしょうけど、今時普通にサーバー運営していたら訳の分からんBOTの攻撃だらけでエラーログなんて1日数万行超えが当たり前です。
              cgiに不正なパラメーターが与えられたら500エラーになるのはよくあるわけで、それこそ気が付かないことも有り得る。

              > 今になってそれが原因で検索結果から除外されたことに思い至らなかったのだと思う

              今のドキュメント
              https://developers.google.com/search/docs/advanced/robots/robots_txt?hl=ja [google.com]

              5xx(サーバーエラー)
              > robots.txt リクエストに対してサーバーから明確な応答がないため、Google は一時的なサーバーエラーと解釈し、サイトが完全に許可されていない場合と同様に処理します。

              ここだけ読むと、完全に許可されていない、つまりインデックスしないということになりますが、

              > Google は、サーバーエラー以外の HTTP ステータス コードを取得するまで robots.txt ファイルのクロールを試行します。
              > 503 (service unavailable) エラーの場合、再試行が頻繁に行われます。
              > robots.txt に 30 日以上アクセスできない場合、Google は robots.txt の最後のキャッシュ コピーを使用します。
              > 利用できない場合、Google はクロールの制限がないものとみなします。
              > クロールを一時的に停止する必要がある場合は、サイト上のすべての URL で 503 HTTP ステータス コードを返すことをおすすめします。
              ここらへんの文章は複数通りの解釈ができますが、「クロールの制限がないものとみなします」のは「5xx」ではなく「503」限定のように読めます。

              > Google は、サイトが誤って構成されているためにページ不明の 404 ではなく 5xx が返されていると判断できる場合、そのサイトからの 5xx エラーを 404 エラーとして扱います。
              > たとえば、5xx ステータス コードを返すページのエラー メッセージが「ページが見つかりません」の場合、Google はそのステータス コードを 404 (not found) と解釈します。

              ここ重要です。
              エラーメッセージの本文を読んでいるんです。
              仮に、エラー メッセージが「ページが見つかりません」ならば404扱いになって、全ページクロール対象になるわけですが、エラーメッセージをどう解釈するのかが不安定なので、あとから問題が起きることは十分に考えられるでしょう。

              > サチコ以前の問題

              最近の Google は余計なおせっかいで勝手なことをやってくれるので、気が付きにくいのです。
              だからこそ、Google八分にならないため、サチコに登録する必要があるのですが。

              親コメント

※ただしPHPを除く -- あるAdmin

処理中...