Googlebot

Googlebot
原著者Google
タイプウェブクローラー
ウェブサイトGooglebotに関するよくある質問

Googlebotは、Googleが使用するウェブクローラーソフトウェアで、ウェブからドキュメントを収集し、 Google検索エンジンの検索可能なインデックスを構築します。この名称は、実際にはデスクトップクローラー(デスクトップユーザーをシミュレート)とモバイルクローラー(モバイルユーザーをシミュレート)という2種類のウェブクローラーを指すために使用されます。[ 1 ]

動作

ウェブサイトは、おそらくGooglebotデスクトップ版とGooglebotモバイル版の両方によってクロールされます。しかし、2020年9月以降、すべてのサイトがモバイルファーストインデックスに切り替えられ、Googleはスマートフォン版Googlebotを使用してウェブをクロールするようになりました。[ 2 ] Googlebotのサブタイプは、リクエスト内のユーザーエージェント文字列を見ることで識別できます。ただし、両方のクローラータイプはrobots.txt内の同じプロダクトトークン(useentトークン)に従うため、開発者はrobots.txtを使用してGooglebotモバイル版またはGooglebotデスクトップ版のいずれかを選択的にターゲットにすることはできません

Googleは、ウェブサイト所有者がGoogle検索結果に表示されるコンテンツを管理するための様々な方法を提供しています。ウェブマスターがGooglebotやその他のスパイダーにサイトの情報へのアクセスを制限したい場合は、robots.txtファイルに適切な指示を記述するか、[ 3 ] 、ウェブページにメタタグを 追加することで制限できます<meta name="Googlebot" content="nofollow" />[ 4 ] Googlebotがウェブサーバーに送信するリクエストは、「Googlebot」を含むユーザーエージェント文字列と「googlebot.com」を含むホストアドレスによって識別されます。 [ 5 ]

現在、Googlebot はHREFリンクと SRC リンクをたどります。[ 3 ] Googlebot が JavaScript を実行でき、Ajax呼び出しによって生成されたコンテンツを解析できるという証拠が増えています。[ 6 ] Googlebot の JavaScript 処理能力がどれほど優れているかについては多くの説があり、カスタムインタープリタに由来する最小限の能力であるという意見から、さまざまな意見があります。[ 7 ]現在、Googlebot は Chromium レンダリングエンジン (2019 年 5 月 7 日時点でバージョン 74) に基づくウェブレンダリングサービス (WRS) を使用しています。[ 8 ] Googlebot は、見つけられるすべてのページのすべてのリンクを収集してページを検出します。nofollowタグで禁止されていない限り、これらのリンクをたどって他のウェブページに移動します。新しいウェブページは、クロールおよびインデックス作成のために、ウェブ上の他の既知のページからリンクされているか、ウェブマスターによって手動で送信されている必要があります。

低帯域幅のウェブホスティングプランを利用しているウェブマスターがGooglebotに関してよく指摘する問題は、膨大な帯域幅を消費することです。これにより、ウェブサイトが帯域幅制限を超え、一時的にダウンしてしまう可能性があります。これは、数ギガバイトのデータをホストするミラーサイトにとって特に厄介な問題です。Googleは、ウェブサイト所有者がクロール速度を調整できる「 Search Console 」を提供しています。 [ 9 ]

Googlebotがサイトをクロールする頻度は、クロールバジェットによって決まります。クロールバジェットとは、ウェブサイトがどのくらいの頻度で更新されるかを推定するものです。技術的には、Googlebotの開発チーム(クロール&インデックスチーム)は、「クロールバジェット」の意味を社内で明確にするために、いくつかの用語を使用しています。[ 10 ] 2019年5月以降、GooglebotはECMAScript 6の機能をサポートする最新のChromiumレンダリングエンジンを使用しています。これにより、ボットはより「エバーグリーン」になり、ブラウザの機能に比べて古いレンダリングエンジンに依存しなくなります。[ 8 ]

メディアボット

メディアボットは、Googleがコンテンツを分析するために使用するウェブクローラーです。これにより、 Google AdSenseはウェブページに関連性の高い広告を配信できるようになります。メディアボットは、ユーザーエージェント文字列「Mediapartners-Google/2.1」 で自身を識別します

他のクローラーとは異なり、Mediabotはリンクをたどって新しいクロール可能なURLを発見するのではなく、AdSenseコードが含まれているURLのみにアクセスします。[ 11 ]コンテンツがログインを必要とする場合、クローラーにログイン情報を与えて保護されたコンテンツをクロールできるようにします。[ 12 ]

検査ツールクローラー

検査ツールは、 Google Search ConsoleのリッチリザルトテストやURL検査などの検索テストツールで使用されるクローラーです。ユーザーエージェントとユーザーエージェントトークンを除けば、Googlebotを模倣しています。[ 13 ]

クローラーに関するガイドが独自に公開されました。[ 14 ]このガイドでは、 Webサーバーのディレクトリインデックスデータに基づいて、4つの異なるクローラーエージェント(非Chromeクローラー1つとChromeクローラー3つ)について詳しく説明しています。

参考文献