| robots.txt | |
|---|---|
| ロボット排除プロトコル | |
シンプルな robots.txt ファイルの例。「Mallorybot」というユーザーエージェントはウェブサイトのどのページもクロールできず、他のユーザーエージェントは 20 秒ごとに 1 ページ以上クロールできず、「secret」フォルダをクロールできないことを示しています。 | |
| 状態 | 提案された標準 |
| 初版 | 1994年に発行され、2022年に正式に標準化されました |
| 著者 |
|
| Webサイト | robotstxt |
robots.txtは、ロボット排除プロトコルを実装するために使用されるファイル名です。ロボット排除プロトコルは、Web サイトが、訪問するWeb クローラーやその他のWeb ロボットに、Web サイトのどの部分の訪問が許可されているかを示すために使用する標準です。
1994年に策定されたこの標準規格は、自主的な遵守を前提としています。悪意のあるボットは、このファイルをアクセス先のページを示すディレクトリとして利用できますが、標準化団体は、これを隠蔽によるセキュリティ対策で防ぐことを推奨していません。一部のアーカイブサイトはrobots.txtを無視しています。この標準規格は1990年代にサーバーの過負荷を軽減するために使用されました。2020年代には、ウェブサイトは生成型人工知能( GAI )のために情報を収集するボットを拒否し始めました。
「robots.txt」ファイルは、ウェブサイトの別のロボット組み込み標準であるサイトマップと組み合わせて使用できます。
歴史
この標準は、 1994年2月[ 4 ]にNexor [ 3 ]で働いていたMartijn Kosterによって提案されました。[ 1 ] [ 2 ]当時、彼はwww-talkメーリングリスト(当時WWW関連活動の主要なコミュニケーションチャネル)で提案されました。Charles Strossは、Kosterがrobots.txtを提案するきっかけとなったのは、自身が書いたWebクローラーが動作不良を起こし、 Kosterのサーバーにサービス拒否攻撃を引き起こしたためだと主張しています。[ 5 ]
この標準規格は当初RobotsNotWanted.txtと呼ばれ、ウェブ開発者はどのボットがウェブサイトにアクセスできないか、またはどのページにアクセスできないかを指定できるようになりました。1994年当時のインターネットは規模が小さかったため、すべてのボットの完全なリストを維持することは困難でした。サーバーの過負荷が主な懸念事項でした。1994年6月までに、この標準規格は事実上の標準となり、[ 6 ] WebCrawler、Lycos、AltaVistaなどの検索エンジンを含むほとんどのボットがこれに準拠しました。[ 7 ]
2019年7月1日、Googleはインターネット技術タスクフォースの公式標準としてロボット排除プロトコルの提案を発表しました。[ 8 ]提案された標準[ 9 ]は2022年9月にRFC 9309として公開されました。
標準
ウェブロボットに指示を与えたいサイト所有者は、ウェブサイト階層のルート(例:https://www.example.com/robots.txt )にrobots.txtというテキストファイルを配置します。このテキストファイルには、特定の形式で指示が含まれています(以下の例を参照)。指示に従うことを選択したロボットは、ウェブサイトから他のファイルを取得する前に、このファイルを取得して指示を読み取ろうとします。このファイルが存在しない場合、ウェブロボットはウェブサイト所有者がサイト全体のクロールに制限を設けていないと想定します。
robots.txt ファイルには、ボットがアクセスできるウェブページとアクセスできないウェブページを指定するための指示が含まれています。robots.txt ファイルは、Google などの検索エンジンのウェブクローラーにとって特に重要です。
ウェブサイト上のrobots.txtファイルは、特定のロボットがサイトをクロールする際に特定のファイルやディレクトリを無視するよう要求するものとして機能します。これは、例えば、検索エンジンの検索結果からプライバシーを守りたい場合、選択されたディレクトリの内容が誤解を招く可能性がある、あるいはサイト全体の分類とは無関係である可能性があると判断した場合、あるいはアプリケーションが特定のデータのみを処理するようにしたい場合などに使用されます。robots.txtにリストされているページへのリンクは、クロール対象のページからリンクされている場合、検索結果に表示されることがあります。[ 10 ]
robots.txt ファイルは 1 つのオリジンをカバーします。複数のサブドメインを持つウェブサイトの場合、各サブドメインにはそれぞれ独自の robots.txt ファイルが必要です。example.comにはrobots.txt ファイルがあり、foo.example.comにはない場合、 example.comに適用されるルールはfoo.example.comには適用されません。さらに、各URI スキームとポートにもそれぞれ独自の robots.txt ファイルが必要です。http: //example.com/robots.txt はhttp://example.com:8080/またはhttps://example.com/の配下のページには適用されません。
コンプライアンス
robots.txtプロトコルはボット運営者によって広く遵守されています。[ 6 ]
robots.txtは1999年のeBay対Bidder's Edgeの訴訟で役割を果たした。 [ 11 ] eBayはrobots.txtに準拠していないボットをブロックしようとし、2000年5月に裁判所はボットを運営する会社に対し、不法侵入を理由に法的差止命令を発令し、自動手段を使ってeBayのサーバーをクロールすることを停止するよう命じた。[ 12 ] [ 13 ] [ 11 ] Bidder's Edgeはこの判決を不服として控訴したが、2001年3月に控訴を取り下げ、eBayに非公開の金額を支払い、eBayのオークション情報へのアクセスを停止することに同意した。[ 14 ] [ 15 ]
2007年のヘルスケア・アドボケーツ対ハーディング事件では、ある企業が、ウェイバックマシンでアーカイブされた保護されたウェブページにアクセスしたとして提訴されました。しかし、robots.txtのルールによりアーカイブからこれらのページへのアクセスは拒否されていました。ペンシルベニア州の裁判所は、「この状況では、robots.txtファイルはDMCAに基づく技術的手段に該当する」と判決しました。インターネット・アーカイブの不具合により、ハーディング社は一時的にアーカイブからこれらのページにアクセスできたため、裁判所は「ハーディング社は保護手段を回避していない」と判断しました。[ 16 ] [ 17 ] [ 18 ]
2013年のAP通信対メルトウォーターUSホールディングス訴訟において、 AP通信はメルトウォーターをAP通信のニュース記事の複製に関して著作権侵害および不正流用で提訴しました。メルトウォーターは、コンテンツは無料で入手可能でありrobots.txtによって保護されていないため、ライセンスは不要でありフェアユースであると主張しました。裁判所は2013年3月、「メルトウォーターの複製はフェアユースの原則によって保護されない」と判断し、複数の要素の中で「robots.txtプロトコルを採用しなかったからといって、メルトウォーターがAP通信のコンテンツを複製して公開するライセンスを取得したわけではない」と指摘しました。[ 19 ]
検索エンジン
この標準に準拠している主要な検索エンジンには、 Ask、[ 20 ] AOL、[ 21 ] Baidu、[ 22 ] Bing、[ 23 ] DuckDuckGo、[ 24 ] Kagi、[ 25 ] Google、[ 26 ] Yahoo !、[ 27 ] Yandex [ 28 ]などがあります。
アーカイブサイト
一部のウェブアーカイブプロジェクトはrobots.txtを無視しています。Archive Teamは、サイトマップなどのリンクを発見するためにこのファイルを使用しています。[ 29 ]共同創設者のジェイソン・スコット氏は、「robots.txtファイルをチェックせずに放置すると、ウェブサイトの文脈を超えて一般的な用途や意味を持つ可能性のあるアイテムのミラーリングや参照が行われなくなります」と述べています。[ 30 ] 2017年、インターネットアーカイブはrobots.txtの指示への準拠を停止すると発表しました。[ 31 ] [ 6 ] Digital Trendsによると、これは検索エンジンの結果から歴史的なサイトを削除するためにrobots.txtが広く使用されるようになったことを受けてのものであり、インターネットの過去の「スナップショット」をアーカイブするという非営利団体の目標とは対照的でした。[ 32 ]
人工知能
2020年代から、ウェブ運営者はrobots.txtを使用して、生成AIのトレーニングデータを収集するボットのアクセスを拒否し始めました。2023年、Originality.AIは、最も訪問数の多い1000のウェブサイトのうち306がrobots.txtファイルでOpenAIのGPTBotをブロックし、85がGoogleのGoogle-Extendedをブロックしていることを発見しました。多くのrobots.txtファイルでは、GPTBotのみがすべてのページで明示的に禁止されているボットとして指定されていました。GPTBotへのアクセス拒否は、BBCやThe New York Timesなどのニュースウェブサイトで一般的でした。2023年、ブログホストのMediumは、「AI企業がインターネットの読者にスパムを送信するためにライターから価値を吸い上げている」として、すべての人工知能ウェブクローラーへのアクセスを拒否すると発表した。[ 6 ]
GPTBotはrobots.txt標準に準拠しており、ウェブ運営者にrobots.txtを無効化する方法についてアドバイスを提供していますが、The VergeのDavid Pierce氏によると、これは「GPTBotを非常に強力にした基盤モデルのトレーニング」が終わった後に始まったとのことです。また、一部のボットは検索エンジンと人工知能の両方に使用されており、どちらか一方だけをブロックすることは不可能な場合があります。[ 6 ] 404 Mediaは、 AnthropicやPerplexity.aiなどの企業が、一般的なブロックリストに掲載されているスクレーパーの名前を変更したり、新しいスクレーパーを立ち上げたりすることでrobots.txtを回避していると報じています。[ 33 ]
2025年、非営利団体RSL Collectiveは、 Really Simple Licensing (RSL)オープンコンテンツライセンス標準の立ち上げを発表しました。これにより、ウェブパブリッシャーはrobots.txtファイル内でAIボットの利用規約を設定できるようになります。立ち上げ時には、Medium、 Reddit、Yahooなどが参加しました。[ 34 ] [ 35 ] [ 36 ]
安全
「許可」と「不許可」という用語が使用されているにもかかわらず、このプロトコルはあくまでも助言的なものであり、ウェブロボットのコンプライアンスに依存しています。ファイルに記載されている内容を強制することはできません。[ 37 ]悪意のあるウェブロボットがrobots.txtを尊重する可能性は低く、中にはrobots.txtをガイドとして利用し、許可されていないリンクを見つけて直接アクセスするロボットもいます。これはセキュリティリスクであると主張されることもありますが、[ 38 ]このような隠蔽によるセキュリティは標準化団体によって推奨されていません。米国国立標準技術研究所(NIST)は、この慣行を特に推奨していません。「システムセキュリティは、実装やそのコンポーネントの機密性に依存すべきではない。」 [ 39 ] robots.txtファイルに関して、隠蔽によるセキュリティはセキュリティ技術として推奨されていません。[ 40 ]
代替案
多くのロボットは、コンテンツを取得する際に特別なユーザーエージェントをウェブサーバーに渡します。[ 41 ]ウェブ管理者は、ロボットのいずれかを使用した接続を検出したときに、自動的に失敗を返す(または代替コンテンツを渡す)ようにサーバーを設定することもできます。 [ 42 ] [ 43 ]
Googleなどの一部のサイトでは、humans.txt人間が読むための情報を表示するファイルをホストしています。[ 44 ] GitHubなどの一部のサイトでは、humans.txtをAboutページにリダイレクトします。[ 45 ]
以前、グーグルはターミネーターに同社の創設者ラリー・ペイジとセルゲイ・ブリン/killer-robots.txtを殺さないように指示するジョークファイルをホストしていた。[ 46 ] [ 47 ]
例
この例では、ワイルドカードはすべての*ロボットを意味し、Disallowディレクティブには値がない(つまり、どのページもアクセスを禁止されていない)ため、すべてのロボットにすべてのファイルへのアクセスを許可しています。検索エンジン大手のGoogleはrobots.txtパーサーをオープンソース化し[ 48 ] 、Tame the Bots [ 49 ]やReal Robots Txt [ 50 ]などのコミュニティが作成したテスターを使用してrobots.txtファイルのルールをテストおよび検証することを推奨しています。
ユーザーエージェント: * 許可しない:
この例には同じ効果があり、まったく禁止しないのではなく、すべてのファイルが許可されます。
ユーザーエージェント: * 許可する: /
robots.txt ファイルが空または存在しない場合でも、同じ結果を得ることができます。
この例では、すべてのロボットに Web サイトにアクセスしないように指示します。
ユーザーエージェント: * 許可しない: /
この例では、すべてのロボットに 3 つのディレクトリに入らないように指示します。
ユーザーエージェント: * 許可しない: /cgi-bin/ 許可しない: /tmp/ 禁止: /junk/
この例では、すべてのロボットに特定のファイルから離れるように指示します。
ユーザーエージェント: * 許可しない: /directory/file.html
指定されたディレクトリ内の他のすべてのファイルは処理されます。
この例では、特定のロボットに Web サイトにアクセスしないように指示します。
ユーザーエージェント: BadBot # 'BadBot' をボットの実際のユーザーエージェントに置き換えます 許可しない: /
この例では、特定の 2 つのロボットに特定のディレクトリに入らないように指示します。
ユーザーエージェント: BadBot # 'BadBot' をボットの実際のユーザーエージェントに置き換えます ユーザーエージェント: Googlebot 許可しない: /private/
コメントの使用方法を示す例:
# コメントは行頭の「#」記号の後、またはディレクティブの後に表示されます ユーザーエージェント: * # すべてのボットに一致 Disallow: / # 除外する
複数のロボットをそれぞれ独自のルールでリストすることも可能です。実際のロボット文字列はクローラーによって定義されます。Googleなどの一部のロボット運用事業者は、複数のユーザーエージェント文字列をサポートしており、特定のユーザーエージェント文字列を使用することで、運用事業者はサービスのサブセットへのアクセスを拒否することができます。[ 26 ]
複数のユーザーエージェントを示す例:
ユーザーエージェント: googlebot # すべての Google サービス Disallow: /private/ # このディレクトリを許可しない ユーザーエージェント: googlebot-news # ニュースサービスのみ Disallow: / # すべてを許可しない ユーザーエージェント: * # 任意のロボット Disallow: /something/ # このディレクトリを許可しない
ルール内でのワイルドカード*の使用
ディレクティブはDisallow: /something/、 で始まるすべてのファイルとサブディレクトリをブロックします/something/。
対照的に、ワイルドカードを使用すると (クローラーでサポートされている場合)、クロールを許可または拒否するパスとファイルを指定する際に、より複雑なパターンが可能になります。たとえば、次のDisallow: /something/*/otherような URL はブロックされます。
/何か/食べ物/その他 /何か/バー/その他
/something/foo/elseパターンと一致しないため、 のクロールは防止されません。
ワイルドカードは*柔軟性を高めますが、ロボット排除プロトコルRFC [ 51 ]の一部ではありますが、すべてのクローラーで認識されるとは限りません。
ルールの末尾のワイルドカードは、実際には何も行いません。これが標準的な動作です。
非標準の拡張機能
クロール遅延指令
クロール遅延値は、一部のクローラーがホストへのアクセスを制限するためにサポートされています。この値は標準規格の一部ではないため、解釈はクローラーの読み取りに依存します。これは、ボットからの複数の訪問が集中してホストの速度を低下させている場合に使用されます。Yandexは、この値を後続の訪問間の待機秒数として解釈します。[ 28 ] Bingは、クロール遅延を、BingBotがウェブサイトに一度だけアクセスする時間枠(1~30秒)として定義しています。[ 52 ] Googleはこの指示を無視しますが、[ 53 ] Googlebotの後続の訪問を制御するためのインターフェースをウェブマスター向けに検索コンソールに提供しています。 [ 54 ]
ユーザーエージェント: bingbot 許可する: / クロール遅延: 10
サイトマップ
一部のクローラーはSitemapディレクティブをサポートしており、同じサイトに複数のサイトマップを作成できます。robots.txt形式:[ 55 ] [ 56 ]Sitemap: full-url
サイトマップ: http://www.example.com/sitemap.xml
ユニバーサル「*」マッチ
ロボット排除基準では、声明文中の「*」文字については言及されていないDisallow:。[ 57 ]
コンテンツシグナル
Cloudflareは、クローラーの許容可能な動作をタイプ別に提案する指令としてContent-Signal[ 58 ] [ 59 ]を導入しましたai-train。それぞれにai-inputまたはのsearch値があります。[ 60 ]yesno
コンテンツシグナル: ai-train=no、search=yes、ai-input=no
メタタグとヘッダー
ルートレベルのrobots.txtファイルに加えて、RobotsメタタグとX-Robots-Tag HTTPヘッダーを使用することで、より詳細なレベルでロボット除外ディレクティブを適用できます。robotsメタタグは、画像、テキストファイル、PDFドキュメントなどの非HTMLファイルには使用できません。一方、X-Robots-Tagは、.htaccessファイルとhttpd.confファイルを使用することで、非HTMLファイルに追加できます。[ 61 ]
「noindex」メタタグ
<メタ名= "ロボット"コンテンツ= "noindex" />「noindex」HTTPレスポンスヘッダー
X-Robots-タグ: noindex X-Robots-Tag はページがリクエストされサーバーが応答した後にのみ有効になり、robots meta タグはページが読み込まれた後にのみ有効になります。一方、robots.txt はページがリクエストされる前から有効です。したがって、robots.txt ファイルによってページが除外されている場合、robots meta タグや X-Robots-Tag ヘッダーはロボットがそもそも認識しないため、実質的に無視されます。[ 61 ]
robots.txtファイルの最大サイズ
ロボット排除プロトコルでは、クローラーが少なくとも500キビバイト(512000バイト)のrobots.txtファイルを解析することを要求しており、[ 62 ] Googleはrobots.txtファイルのファイルサイズ制限として500キビバイトを維持しています。[ 63 ]
参照
ads.txt、認定広告販売業者を掲載するための標準security.txtセキュリティ研究者がセキュリティの脆弱性を報告するために従うべきプロセスを記述したファイル- eBay対ビッダーズエッジ
- hiQ Labs対LinkedIn
- 自動コンテンツアクセスプロトコル– robots.txt を拡張する失敗した提案
- BotSeer – robots.txtファイル用の検索エンジンは現在非アクティブです
- 分散ウェブクロール
- 集中クローラー
- インターネットアーカイブ
- 検索エンジンのメタ要素
- 国立デジタル図書館プログラム(NDLP)
- 国家デジタル情報インフラストラクチャおよび保存プログラム(NDIIPP)
- ノーフォロー
- インデックスなし
- パーマ.cc
- 本当にシンプルなライセンス
- サイトマップ
- クモトラップ
- ウェブアーカイブ
- ウェブクローラー
参考文献
- ^ "Historical" . Greenhills.co.uk . 2017年4月3日時点のオリジナルよりアーカイブ。2017年3月3日閲覧。
- ^ Fielding, Roy (1994). 「分散ハイパーテキスト情報構造の維持:MOMspiderのWebへようこそ」(PostScript) .第1回World Wide Web国際会議. ジュネーブ. 2013年9月27日時点のオリジナルよりアーカイブ。 2013年9月25日閲覧。
- ^ 「The Web Robots Pages」 . Robotstxt.org. 1994年6月30日. 2014年1月12日時点のオリジナルよりアーカイブ。 2013年12月29日閲覧。
- ^ Koster, Martijn (1994年2月25日). 「重要:スパイダー、ロボット、そしてウェブ放浪者」 . www-talk メーリングリスト. 2013年10月29日時点のオリジナル(Hypermailアーカイブメッセージ)からアーカイブ。
- ^ 「結局ここに至った経緯、パート 5: 「状況は良くなるばかりだ!」「 .チャーリーの日記. 2006年6月19日. 2013年11月25日時点のオリジナルよりアーカイブ。2014年4月19日閲覧。
- ^ a b c d eピアス、デイビッド (2024年2月14日). 「インターネットを動かすテキストファイル」 . The Verge . 2024年3月16日閲覧。
- ^バリー・シュワルツ (2014年6月30日). 「Robots.txt、検索エンジンブロック20周年を祝う」 . Search Engine Land . 2015年9月7日時点のオリジナルよりアーカイブ。 2015年11月19日閲覧。
- ^ 「ロボット排除プロトコル仕様の公式化」。Googleウェブマスター向け公式ブログ。2019年7月10日時点のオリジナル記事よりアーカイブ。 2019年7月10日閲覧。
- ^ Koster, M.; Illyes, G.; Zeller, H.; Sassman, L. (2022年9月).ロボット排除プロトコル.インターネット技術タスクフォース. doi : 10.17487/RFC9309 . RFC 9309 .提案された標準。
- ^ 「検索結果にクロールされていないURLが表示される」 YouTube、2009年10月5日。2014年1月6日時点のオリジナルよりアーカイブ。2013年12月29日閲覧。
- ^ a b「EBay、ウェブ上のスパイダーと戦う」 Wired 2000年7月31日ISSN 1059-1028 2024年8月2日閲覧。
- ^ eBay v. Bidder's Edge、 100 F. Supp. 2d 1058 ( ND Cal. 2000)、オリジナルからアーカイブ。
- ^ Hoffmann, Jay (2020年9月15日). 「第4章 検索」 .ウェブの歴史. 2024年8月2日閲覧。
- ^ Berry, Jahna (2001年7月24日). 「Robots in the Hen House」 . law.com . 2011年6月8日時点のオリジナルよりアーカイブ。2015年6月20日閲覧。
- ^ 「EBayとBidder's Edge、ウェブアクセスに関する訴訟で和解」 latimes . 2015年6月20日閲覧。
- ^ 「ウェブアーカイブの使用はハッキングではないと米裁判所が判断」 The Register . 2007年8月2日. 2025年10月22日閲覧。
- ^ 「覚書 - Healthcare Advocates v Harding at all」(PDF) . govinfo.gov . 2007年7月20日. 2025年10月22日閲覧。
- ^ 「Healthcare Advocates, Inc. v. Harding, Earley, Follmer & Frailey」 www.courtlistener.com 2007年7月20日 2025年10月23日閲覧。
- ^ 「Associated Press v. Meltwater US Holdings, Inc」 www.courtlistener.com 2013年3月21日. 2025年10月23日閲覧。
- ^ 「About Ask.com: Webmasters」 About.ask.com . 2013年1月27日時点のオリジナルよりアーカイブ。2013年2月16日閲覧。
- ^ 「AOL Searchについて」 Search.aol.com . 2012年12月13日時点のオリジナルよりアーカイブ。2013年2月16日閲覧。
- ^ “Baiduspider” . Baidu.com . 2013年8月6日時点のオリジナルよりアーカイブ。2013年2月16日閲覧。
- ^ 「ロボット排除プロトコル:より良いドキュメントを提供するために協力する」 Blogs.bing.com 2008年6月3日. 2014年8月18日時点のオリジナルよりアーカイブ。2013年2月16日閲覧。
- ^ “DuckDuckGo Bot” . DuckDuckGo.com . 2017年2月16日時点のオリジナルよりアーカイブ。2017年4月25日閲覧。
- ^ “Kagi Search KagiBot” . Kagi Search . 2024年4月12日時点のオリジナルよりアーカイブ。 2024年11月20日閲覧。
- ^ a b「ウェブマスター向け: robots.txt の仕様」 . Google Developers . 2013年1月15日時点のオリジナルよりアーカイブ。2013年2月16日閲覧。
- ^ 「ウェブサイトをYahoo!検索に送信する」。2013年1月21日時点のオリジナルよりアーカイブ。2013年2月16日閲覧。
- ^ a b「robots.txtの使用」 . Help.yandex.com . 2013年1月25日時点のオリジナルよりアーカイブ。2013年2月16日閲覧。
- ^ “ArchiveBot: Bad behavior” . wiki.archiveteam.org . Archive Team. 2022年10月10日時点のオリジナルよりアーカイブ。 2022年10月10日閲覧。
- ^ Jason Scott . 「Robots.txtは自殺メモだ」 . アーカイブチーム. 2017年2月18日時点のオリジナルよりアーカイブ。 2017年2月18日閲覧。
- ^ 「検索エンジン向けのRobots.txtはウェブアーカイブには適さない | Internet Archive Blogs」 . blog.archive.org . 2017年4月17日. 2018年12月4日時点のオリジナルよりアーカイブ。 2018年12月1日閲覧。
- ^ Jones, Brad (2017年4月24日). 「インターネットアーカイブは正確性を維持するためにRobots.txtファイルを無視する」 . Digital Trends . 2017年5月16日時点のオリジナルよりアーカイブ。 2017年5月8日閲覧。
- ^ Koebler, Jason (2024年7月29日). 「ウェブサイトは間違ったAIスクレイパーをブロックしている(AI企業が新しいスクレイパーを作り続けているため)」 404 Media . 2024年7月29日閲覧。
- ^ Brandom, Russell (2025年9月10日). 「RSSの共同制作者がAIデータライセンスの新プロトコルを発表」 TechCrunch . 2025年9月10日閲覧。
- ^ Roth, Emma (2025年9月10日). 「ウェブにはAI企業に報酬を支払うための新しいシステムがある」 . The Verge . 2025年9月10日閲覧。
- ^ Shanklin, Will (2025年9月10日). 「Reddit、Yahoo、MediumなどがAIスクレイピングの報酬を得るために新たなライセンス基準を採用」 Engadget . 2025年9月10日閲覧。
- ^ 「robots.txtでURLをブロックする:robots.txtファイルについて学ぶ」。2015年8月14日時点のオリジナルよりアーカイブ。2015年8月10日閲覧。
- ^ 「Robots.txtはハッカーに見られたくない場所を伝える」 The Register . 2015年8月21日時点のオリジナルよりアーカイブ。2015年8月12日閲覧。
- ^ Scarfone, KA; Jansen, W.; Tracy, M. (2008年7月). 「一般的なサーバーセキュリティガイド」(PDF) .米国国立標準技術研究所. doi : 10.6028/NIST.SP.800-123 . 2011年10月8日時点のオリジナルよりアーカイブ(PDF) . 2015年8月12日閲覧.
- ^ Sverre H. Huseby (2004). 『イノセント・コード:Webプログラマのためのセキュリティの警鐘』 John Wiley & Sons. pp. 91– 92. ISBN 9780470857472. 2016年4月1日時点のオリジナルよりアーカイブ。2015年8月12日閲覧。
- ^ 「ユーザーエージェント一覧(スパイダー、ロボット、ブラウザ)」 User-agents.org。2014年1月7日時点のオリジナルよりアーカイブ。 2013年12月29日閲覧。
- ^ 「アクセス制御 - Apache HTTP Server」 . Httpd.apache.org. 2013年12月29日時点のオリジナルよりアーカイブ。 2013年12月29日閲覧。
- ^ 「フィルタリングルールの拒否文字列:Microsoft IIS公式サイト」 iis.net 2013年11月6日オリジナルより2014年1月1日アーカイブ。 2013年12月29日閲覧。
- ^ “Google humans.txt” . 2017年1月24日時点のオリジナルよりアーカイブ。2019年10月3日閲覧。
- ^ “Github humans.txt” . GitHub . 2016年5月30日時点のオリジナルよりアーカイブ。2019年10月3日閲覧。
- ^ニューマン、リリー・ヘイ (2014年7月3日). 「これはGoogleのイースターエッグか、それともスカイネットが実際に世界征服を企んでいる証拠か?」スレート誌. 2018年11月18日時点のオリジナルよりアーカイブ。 2019年10月3日閲覧。
- ^ "/killer-robots.txt" . 2018年1月10日. 2018年1月10日時点のオリジナルよりアーカイブ。2018年5月25日閲覧。
- ^ 「Google Robots.txt パーサーおよびマッチャーライブラリ」 . GitHub . 2025年4月13日閲覧。
- ^ 「Robots.txtテスト&検証ツール - ボットを制御」 。 2025年4月13日閲覧。
- ^ 「SearchPilotのCEO、Will Critchlowによる、GoogleのオープンソースパーサーをベースにしたRobots.txtパーサー」 。 2025年4月13日閲覧。
- ^コスター、マーティン;イリエス、ゲイリー。ツェラー、ヘナー。サスマン、リジー(2022年9月)。ロボット排除プロトコル(レポート)。インターネット エンジニアリング タスク フォース。
- ^ 「クロールするかしないか、それがBingBotの問いだ」 2012年5月3日. 2016年2月3日時点のオリジナルよりアーカイブ。2016年2月9日閲覧。
- ^ 「Googleによるrobots.txt仕様の解釈」 Google Search Central 2024年5月23日2024年10月6日閲覧。
- ^ 「Googlebot のクロール頻度を変更する - Search Console ヘルプ」support.google.com。 2018年11月18日時点のオリジナルよりアーカイブ。2018年10月22日閲覧。
- ^ 「Yahoo!検索ブログ - ウェブマスターはサイトマップで自動検出が可能に」 。 2009年3月5日時点のオリジナルよりアーカイブ。 2009年3月23日閲覧。
- ^ 「FAQ - Common Crawl」。2025年5月26日閲覧。Common
Crawl CCBotがサイトを効果的にクロールできるようにするにはどうすればよいですか?クローラーはサイトマッププロトコルをサポートしており、robots.txtファイルで宣言されたサイトマップをすべて利用します。
- ^ 「Robots.txt の仕様」。Google Developers。2019年11月2日時点のオリジナルよりアーカイブ。2020年2月15日閲覧。
- ^ 「ContentSignalsウェブサイト」。2025年9月29日時点のオリジナルよりアーカイブ。2025年9月30日閲覧。
- ^ 「CloudflareがAIオーバービューをブロックする方法を提供 – Googleは従うのか?」 2025年9月26日時点のオリジナルよりアーカイブ。2025年9月30日閲覧。
- ^ 「Cloudflareの新しいコンテンツシグナルポリシーでユーザーに選択肢を提供」。2025年9月30日時点のオリジナルよりアーカイブ。2025年9月30日閲覧。
- ^ a b「RobotsメタタグとX-Robots-Tag HTTPヘッダーの仕様 - ウェブマスター - Google Developers」。2013年8月8日時点のオリジナルよりアーカイブ。 2013年8月17日閲覧。
- ^ Koster, M.; Illyes, G.; Zeller, H.; Sassman, L. (2022年9月).ロボット排除プロトコル.インターネット技術タスクフォース. doi : 10.17487/RFC9309 . RFC 9309 .提案された規格。セクション 2.5: 制限。
- ^ 「Googleによるrobots.txt仕様の解釈 | ドキュメント」 Google Developers . 2022年10月17日時点のオリジナルよりアーカイブ。 2022年10月17日閲覧。
さらに読む
- アリン、ボビー (2024年7月5日). 「人工知能ウェブクローラーが暴走中」 . All Things Considered . NPR . 2024年7月6日時点のオリジナルよりアーカイブ。 2024年7月6日閲覧。