Googlebotはウェブページをどのようにクロールしレンダリングするのか？

クロールとは？
クロールとレンダリングのプロセス
クロールバジェットとリソース管理
robots.txt に関する考慮事項
監視と分析
参考サイト

クロールとは？

Googlebotは、新しいウェブページを発見し、または更新されたウェブページを再訪問して、そのコンテンツをインデックス化し、検索結果に表示できるようにするためにクロールを行います。このプロセスには、URLの取得、エラーやリダイレクトの管理、インデックス化のためのデータ処理が含まれます。HTMLだけでなく、JavaScript、CSS、画像、動画など、最新のウェブページをレンダリングするために必要なリソースもクロール対象となります。

クロールとレンダリングのプロセス

Googlebotは、以下のような構造化されたプロセスに従います。

初期データの取得: URLからHTMLをダウンロードします。
レンダリングの準備: ダウンロードしたデータをウェブレンダリングサービス（WRS）に転送します。
リソースのダウンロード: JavaScriptやCSSなど、参照されているすべてのリソースをWRSが取得します。
ページの構築: ブラウザのレンダリングをシミュレートし、完全なページをWRSが生成します。

WRSはブラウザと同等の処理を実行しますが、サーバーの負荷やスケジューリング上の考慮事項により、レンダリングに時間がかかる場合があります。

このプロセス全体を通じて、Googlebotは最新のウェブページを効果的にクロールし、検索結果に反映させるためのインデックス化を行います。

クロールバジェットとリソース管理

クロールバジェットは、ウェブサイトのクロールの頻度と範囲を定義します。これには、レンダリングに必要なリソースの量やホスティングドメインの処理能力など、様々な要素が影響します。クロールバジェットを最適化するために、以下の手段が推奨されます。

ユーザーエクスペリエンスを損なうことなく、必須リソースを最小限に抑える。
負荷の高いリソースには、個別のホスト名（例：CDNやサブドメイン）を使用する。
不要な再クロールを強制するキャッシュバスティングパラメータの過度な使用を避ける。

補足：「キャッシュバスティングパラメータ (cache-busting parameters)」とは、main.css?ver=1 や main.css?ver=2 のようにパラメータを追加してURLを変更し、キャッシュではなく最新のリソースを取得するようにする手法です。

また、Googlebotは独自のキャッシング機能を活用し、サイト側のHTTPキャッシュ設定に関係なく、ウェブレンダリングサービス（WRS）にリソースを最大30日間保存します。これにより、繰り返しのクロールが減り、クロールバジェットの節約に役立ちます。

robots.txt に関する考慮事項

robots.txtを使用してリソースのクロールをブロックすることは、いくつかの問題を引き起こす可能性があります。特に、ウェブレンダリングサービス（WRS）がレンダリングに重要なリソースを取得できない場合、コンテンツの抽出や適切なランキングに悪影響を与えるかもしれません。

このような状況では、検索エンジンのインデックスにおけるサイトの可視性が低下し、検索結果におけるパフォーマンスが悪化する可能性があります。そのため、robots.txtファイルを使用する際は、サイトの重要なリソースがブロックされていないことを確認することが重要です。

監視と分析

Googlebotのアクティビティを確認する方法として、以下が挙げられます。

サーバーアクセスログ: クローラーによるすべてのURLリクエストの記録が含まれています。
Search Console クロール統計レポート: リソース固有のクロールに関する詳細な情報を提供します。

主要ポイントを中心に元の記事を概説しましたが、英語が読める方は直接英語で読むことをお勧めします。英語が苦手な方は、翻訳ツールや生成AIを利用して全文を読むと良いでしょう。これにより、Googlebotのクロールに関する詳細な知識を得ることができます。テクニカルSEOに精通している方にとっては既知の情報かもしれませんが、再確認のために役立つはずです。