この記事には複数の問題があります。改善にご協力いただくか、トークページでこれらの問題について議論してください。(これらのメッセージを削除する方法とタイミングについては、こちらをご覧ください)
|
| Googlebot | |
|---|---|
| 原著者 | |
| タイプ | ウェブクローラー |
| ウェブサイト | Googlebotに関するよくある質問 |
Googlebotは、Googleが使用するウェブクローラーソフトウェアで、ウェブからドキュメントを収集し、 Google検索エンジンの検索可能なインデックスを構築します。この名称は、実際にはデスクトップクローラー(デスクトップユーザーをシミュレート)とモバイルクローラー(モバイルユーザーをシミュレート)という2種類のウェブクローラーを指すために使用されます。[ 1 ]
動作
ウェブサイトは、おそらくGooglebotデスクトップ版とGooglebotモバイル版の両方によってクロールされます。しかし、2020年9月以降、すべてのサイトがモバイルファーストインデックスに切り替えられ、Googleはスマートフォン版Googlebotを使用してウェブをクロールするようになりました。[ 2 ] Googlebotのサブタイプは、リクエスト内のユーザーエージェント文字列を見ることで識別できます。ただし、両方のクローラータイプはrobots.txt内の同じプロダクトトークン(useentトークン)に従うため、開発者はrobots.txtを使用してGooglebotモバイル版またはGooglebotデスクトップ版のいずれかを選択的にターゲットにすることはできません
Googleは、ウェブサイト所有者がGoogle検索結果に表示されるコンテンツを管理するための様々な方法を提供しています。ウェブマスターがGooglebotやその他のスパイダーにサイトの情報へのアクセスを制限したい場合は、robots.txtファイルに適切な指示を記述するか、[ 3 ] 、ウェブページにメタタグを 追加することで制限できます<meta name="Googlebot" content="nofollow" />。[ 4 ] Googlebotがウェブサーバーに送信するリクエストは、「Googlebot」を含むユーザーエージェント文字列と「googlebot.com」を含むホストアドレスによって識別されます。 [ 5 ]
現在、Googlebot はHREFリンクと SRC リンクをたどります。[ 3 ] Googlebot が JavaScript を実行でき、Ajax呼び出しによって生成されたコンテンツを解析できるという証拠が増えています。[ 6 ] Googlebot の JavaScript 処理能力がどれほど優れているかについては多くの説があり、カスタムインタープリタに由来する最小限の能力であるという意見から、さまざまな意見があります。[ 7 ]現在、Googlebot は Chromium レンダリングエンジン (2019 年 5 月 7 日時点でバージョン 74) に基づくウェブレンダリングサービス (WRS) を使用しています。[ 8 ] Googlebot は、見つけられるすべてのページのすべてのリンクを収集してページを検出します。nofollowタグで禁止されていない限り、これらのリンクをたどって他のウェブページに移動します。新しいウェブページは、クロールおよびインデックス作成のために、ウェブ上の他の既知のページからリンクされているか、ウェブマスターによって手動で送信されている必要があります。
低帯域幅のウェブホスティングプランを利用しているウェブマスターがGooglebotに関してよく指摘する問題は、膨大な帯域幅を消費することです。これにより、ウェブサイトが帯域幅制限を超え、一時的にダウンしてしまう可能性があります。これは、数ギガバイトのデータをホストするミラーサイトにとって特に厄介な問題です。Googleは、ウェブサイト所有者がクロール速度を調整できる「 Search Console 」を提供しています。 [ 9 ]
Googlebotがサイトをクロールする頻度は、クロールバジェットによって決まります。クロールバジェットとは、ウェブサイトがどのくらいの頻度で更新されるかを推定するものです。技術的には、Googlebotの開発チーム(クロール&インデックスチーム)は、「クロールバジェット」の意味を社内で明確にするために、いくつかの用語を使用しています。[ 10 ] 2019年5月以降、GooglebotはECMAScript 6の機能をサポートする最新のChromiumレンダリングエンジンを使用しています。これにより、ボットはより「エバーグリーン」になり、ブラウザの機能に比べて古いレンダリングエンジンに依存しなくなります。[ 8 ]
メディアボット
メディアボットは、Googleがコンテンツを分析するために使用するウェブクローラーです。これにより、 Google AdSenseはウェブページに関連性の高い広告を配信できるようになります。メディアボットは、ユーザーエージェント文字列「Mediapartners-Google/2.1」 で自身を識別します
他のクローラーとは異なり、Mediabotはリンクをたどって新しいクロール可能なURLを発見するのではなく、AdSenseコードが含まれているURLのみにアクセスします。[ 11 ]コンテンツがログインを必要とする場合、クローラーにログイン情報を与えて保護されたコンテンツをクロールできるようにします。[ 12 ]
検査ツールクローラー
検査ツールは、 Google Search ConsoleのリッチリザルトテストやURL検査などの検索テストツールで使用されるクローラーです。ユーザーエージェントとユーザーエージェントトークンを除けば、Googlebotを模倣しています。[ 13 ]
クローラーに関するガイドが独自に公開されました。[ 14 ]このガイドでは、 Webサーバーのディレクトリインデックスデータに基づいて、4つの異なるクローラーエージェント(非Chromeクローラー1つとChromeクローラー3つ)について詳しく説明しています。
参考文献
- ^ 「Googlebot」 . Google . 2019年3月11日. 2019年3月11日閲覧
- ^ 「ウェブ全体のモバイルファーストインデックスを発表」。Google Developers 。2021年3月17日閲覧。
- ^ a b「Google Search Console」 . Google.com .
- ^ 「Google Search Console」 . search.google.com . 2019年3月11日閲覧。
- ^ 「Googlebot とは | Google 検索セントラル | ドキュメント」 2022年5月。
- ^ 「JavaScript SEOの基本を理解する | Search for Developers」 . Google Developers . 2020年7月26日閲覧。
- ^ Splitt, Martin (2019年2月28日). 「Google検索がJavaScriptサイトをインデックスする方法 - JavaScript SEO」 . YouTube . 2021年12月12日時点のオリジナルよりアーカイブ。
- ^ a b「新しいエバーグリーンGooglebot」。Googleウェブマスター向け公式ブログ。2019年6月7日閲覧。
- ^ 「Google - ウェブマスター」 。 2012年12月15日閲覧。
- ^ 「クロールバジェットがGooglebotに与える影響」。Googleウェブマスター向け公式ブログ。2018年7月4日閲覧。
- ^ 「AdSense クローラーについて」。
- ^ 「ログイン保護されたページに広告を表示する」。
- ^ 「Google クローラ(ユーザー エージェント)の概要」。
- ^ 「新しい InspectionTool クローラーの究極ガイド」。