アーカイブチーム

アーカイブチームロゴ

アーカイブチームは、 2009年にジェイソン・スコットによって共同設立された、デジタル保存ウェブアーカイブに特化したグループです。[ 1 ] [ 2 ]

主な活動は、危険にさらされているオンラインサービスに保管されているコンテンツのコピーと保存です。プロジェクトには、GeoCities[ 3 ] [ 4 ] Yahoo! VideoGoogle VideoFriendsterFortuneCity[ a ] TwitPic[ 5 ] SoundCloud[ 6 ]、「Aaron Swartz Memorial JSTOR Liberator」などのサービスの部分的または完全な保存が含まれます。[ 7 ]アーカイブチームは、URL短縮サービス[ 8 ]Wiki [ 9 ]も定期的にアーカイブしています。アーカイブチームによってアーカイブされたコンテンツは通常、Wayback Machineで公開されており、アクセス方法としてはWayback Machineが推奨されています[ 10 ]

ジェイソン・スコットによると、「アーカイブチームは怒りと無力感から始まりました。何が生き残り、何が消滅するかを企業に決めさせているという感覚です。」[ 11 ]スコットは続けて、「何が価値があり、何が意味があるのか​​を見極めるのは私たちの仕事ではありません。私たちは3つの美徳、つまり怒り偏執窃盗癖に基づいて仕事をしています。」[ 12 ]

ウォリアー/トラッカーシステム

Telegramスクレイピング

アーカイブチームは、独立した貢献者/ユーザーによる緩やかなコミュニティで構成されています。[ 13 ] [ 14 ] [ 15 ]アーカイブプロセスでは、仮想マシン環境である「ウォリアー」が使用されています。ユーザーはデスクトップ環境でウォリアーを使用して、技術的な専門知識を必要とせずにコンテンツをダウンロードできます。タスクは、ウォリアーとネットワークを構築し、アイテムを割り当てる、集中管理されたトラッカーによって割り当てられます。トラッカーはユーザーのアップロードアクティビティも監視し、リーダーボードを表示します。[ 16 ]

ウォリアー・プロジェクト

長期にわたるウォリアー・プロジェクトがいくつかあります

  • Imgur : 画像ホストImgurは2023年4月19日に利用規約を更新しました。この更新では、ユーザーアカウントに紐付けられていない古いコンテンツ、未使用のコンテンツ、非アクティブなコンテンツ、およびNSFWコンテンツの削除に重点が置かれました。[ 17 ]
  • Blogger : 2023年5月、Googleは、2023年12月1日からBloggerブログを含むプラットフォーム全体で非アクティブなアカウントを削除すると発表しました。[ 18 ]
  • Reddit:Reddit Inc.に悪影響を及ぼすコミュニティを禁止。2023年6月19日にAPIとデータへのアクセスを制限。[ 19 ]
  • ロシアのウクライナ侵攻:ロシア政府の侵攻を受けて、様々な.uaサイトをアーカイブ化。 [ 20 ]
  • Telegram : 様々なニュース価値のある、あるいは注目すべきTelegramチャンネルの公開メッセージをアーカイブします。[ 21 ]
  • GitHub:2018年にMicrosoftに買収された際、多くのアーキビストやユーザーは、サイトの制限が厳しくなることを懸念していました。このプロジェクトは、GitHubのUI部分と各リポジトリのコードをアーカイブしています。[ 22 ]
  • Mediafire : 2020年12月18日、ユーザーから、1月からMediaFireから、特定の基準を満たさないアカウントを放棄アカウントとして分類する予定であることを知らせるメールが届き始めたとの報告がありました。[ 23 ]
  • コロナウイルスの発生: COVID-19のデータ、出来事、社会への影響を記録し保存する。[ 24 ]
  • YouTube:メタデータ、サムネイル、コメント、選択した動画を保存します。保存対象となる動画とチャンネルは、会社の倒産、チャンネル所有者の死亡、YouTubeによる特定のコンテンツの禁止、世界情勢や政治に関するチャンネルなど、削除される可能性のあるチャンネルに限定されます。[ 25 ]
  • Wikiteam: Wiki XMLダンプの保存。[ 26 ]
  • Urlteam: URL短縮サービスの保存。[ 27 ]
  • URL:様々なソースからのURLをアーカイブします。 [ 28 ]

2024年12月12日現在、ArchiveTeamの最大のプロジェクトはURLsであり、10ペタバイト以上がアーカイブされています。[ 29 ] [ b ]

アーカイブボット

アーカイブボットは、アーカイブチームが運営するウェブアーカイブシステムで、ウェブサイトの厳選されたクロールを実施します。IRCチャンネルを介して制御されるアーカイブボットは、通常、サイトのシャットダウン、ポリシーの変更、またはオンラインデータを脅かすその他のイベントに応じて、ボランティアがアーカイブ用のURLを送信できるようにします

ジョブはパイプラインと呼ばれるワーカーシステムのネットワークによって処理され、コンテンツをクロールしてWARC(Web ARChive)形式で保存します。ボランティアは公開ダッシュボードを通じてアクティブなクロール(ジョブ)を監視し、カレンダー、無限スクロール、再帰クロールを妨げる可能性のあるセッションベースのコンテンツなど、ウェブサイトの問題のある領域に対処するために無視ルールを適用する場合があります。[ 30 ]

ArchiveBotのクロール結果はインターネットアーカイブにアップロードされ、通常はWayback Machineを通じてアクセスでき、一般の人が閲覧できる。[ 31 ] ArchiveBotは、ユーザー生成プラットフォーム、ニュースメディア、政府のウェブサイトなど、幅広いコンテンツを保存するために使用されている。[ 32 ]

参照

注記

  1. ^アーカイブチームのプロジェクトに関する出典: [ 33 ] [ 34 ] [ 35 ] [ 36 ] [ 37 ] [ 38 ] [ 39 ] [ 40 ]
  2. ^トラッカーはペタバイト(1000 TB)ではなくペビバイト(1024 TiB、約1126 TB)などの2進数の接頭辞が付いた単位を使用します。

参考文献

  1. ^スコット、ジェイソン(2009年1月6日)「Team Archive is GO」 ASCII、ジェイソン・スコット著。2016年11月2日時点のオリジナルよりアーカイブ2016年12月30日閲覧
  2. ^ 「メインページ」の改訂履歴.アーカイブチーム. 2016年12月31日時点のオリジナルよりアーカイブ。2016年12月30日閲覧。
  3. ^ Gilbertson, Scott (2010年11月1日). 「Geocities、大規模Torrentダウンロードとして存続」 . Wired . 2012年4月25日時点のオリジナルよりアーカイブ。
  4. ^ Modine, Austin (2009年4月28日). 「Web 0.2アーキビストがジオシティーズの削除を阻止」 The Register . 2012年5月3日時点のオリジナルよりアーカイブ。
  5. ^ “TwitPic - Archiveteam” . 2014年9月9日時点のオリジナルよりアーカイブ2014年9月17日閲覧。
  6. ^ Deahl, Dani (2017年7月18日). 「Archive Team、SoundCloudの閉鎖懸念の中、バックアップを約束」オリジナルより2018年10月21日アーカイブ2018年11月28日閲覧。
  7. ^ Farivar, Cyrus (2013年1月15日). 「Aaron Swartz Memorial JSTOR Liberator がパブリックドメインの学術論文を解放」 . 2018年3月23日時点のオリジナルよりアーカイブ。 2018年11月28日閲覧
  8. ^ 「URL短縮はひどいアイデアだった」。URLTE.AM 。 2011年6月11日時点オリジナルよりアーカイブ。
  9. ^ WikiTeam 2016年2月10日アーカイブ( Wayback Machine)
  10. ^ 「よくある質問 - Archiveteam」 . wiki.archiveteam.org . 2025年5月26日閲覧
  11. ^ 「Open Source Bridge 2012 Keynote - Jason Scott」YouTube 2012年6月28日. 2017年9月14日時点のオリジナルよりアーカイブ。 2018年11月28日閲覧
  12. ^ 「Open Source Bridge 2012 Keynote - Jason Scott」YouTube 2012年6月28日. 2017年9月14日時点のオリジナルよりアーカイブ。 2018年11月28日閲覧
  13. ^ Wodinsky, Shoshana; Mehrotra, Dhruv (2021年4月9日). 「Yahoo!知恵袋をアーカイブ化しているので、赤ちゃんの誕生の仕組みをいつでも知ることができます」 . Gizmodo . 2025年1月24日時点のオリジナルよりアーカイブ。 2025年4月13日閲覧
  14. ^ Hill, Mark (2021年5月12日). 「インターネットをデジタルゴミ箱から救う活動家アーキビストたち」 . Discover Magazine . 2024年12月13日時点のオリジナルよりアーカイブ。 2025年4月13日閲覧
  15. ^ Mühlenmeier, Lennart (2023年7月26日). 「週末も閉鎖は止まらない」 . netzpolitik.org . 2025年3月29日時点のオリジナルよりアーカイブ2025年4月13日閲覧。
  16. ^オグデン、ジェシカ(2021年10月21日)「インターネット上のあらゆるものは保存可能」:アーカイブチーム、Tumblr、そしてウェブアーカイブの文化的意義。インターネット歴史。6 ( 1– 2 ) : 113– 132。doi : 10.1080/24701475.2021.1985835。hdl : 1983 / daef55ca-1fb1-4d91- a820-244bf24fe2b7。S2CID 239510759 
  17. ^ 「Imgur 利用規約の更新」 . Imgur ヘルプ. 2023年5月31日時点のオリジナルよりアーカイブ。 2023年6月9日閲覧
  18. ^ "Blogger - Archiveteam" . wiki.archiveteam.org . 2024年1月2日閲覧
  19. ^ Slowe, Christopher (2023年4月18日). 「RedditのAPIに関する最新情報」reddit.com . 2024年6月18日時点のオリジナルよりアーカイブ2023年6月9日閲覧
  20. ^ “.ua - Archiveteam” . wiki.archiveteam.org . 2023年3月23日時点のオリジナルよりアーカイブ2023年6月9日閲覧。
  21. ^ “Telegram - Archiveteam” . wiki.archiveteam.org . 2023年5月29日時点のオリジナルよりアーカイブ2023年6月9日閲覧。
  22. ^ “GitHub - Archiveteam” . wiki.archiveteam.org . 2023年5月27日時点のオリジナルよりアーカイブ2023年6月9日閲覧。
  23. ^ "MediaFire - Archiveteam" . wiki.archiveteam.org . 2024年1月2日閲覧
  24. ^ “Coronavirus - Archiveteam” . wiki.archiveteam.org . 2023年6月9日時点のオリジナルよりアーカイブ。 2023年6月9日閲覧
  25. ^ 「YouTube - Archiveteam」 . wiki.archiveteam.org . 2024年1月2日閲覧
  26. ^ "ウィキチーム - アーカイブチーム" . wiki.archiveteam.org 2024-01-02に取得
  27. ^ "URLTeam - Archiveteam" . wiki.archiveteam.org . 2024年1月2日閲覧
  28. ^ "URLs - Archiveteam" . wiki.archiveteam.org . 2024年1月2日閲覧。
  29. ^ 「URLs tracker Dashboard」 . tracker.archiveteam.org . 2024年12月9日時点のオリジナルよりアーカイブ2024年12月12日閲覧。
  30. ^ "ArchiveBot - Archiveteam" . wiki.archiveteam.org . 2025年5月27日閲覧
  31. ^ 「ArchiveBot: The Archive Team Crowdsourced Crawler」 . archive.org . 2025年5月27日閲覧
  32. ^ 「ドメイン - ArchiveBotビューア」 . archive.fart.website . 2025年5月27日閲覧
  33. ^ Sullivan, Mark (2012年4月13日). 「『アーカイブチーム』が閉鎖されたサイトからユーザーコンテンツを救出」 . PC World . 2012年4月20日時点のオリジナルよりアーカイブ。
  34. ^シュワルツ、マット(2012年1月)「図書館の火災」テクノロジーレビュー2012年1月24日時点のオリジナルよりアーカイブ。
  35. ^ガーフィールド、ボブ、スコット、ジェイソン (2012年3月23日). 「アーカイブチーム」 . OnTheMedia . 2012年4月27日時点のオリジナルよりアーカイブ2012年4月19日閲覧。
  36. ^ Masnick, Mike (2012年4月12日). 「1月18日のSOPAブラックアウトにおけるウェブサイトの歴史的アーカイブ」 Techdirt . 2012年4月15日時点のオリジナルよりアーカイブ。
  37. ^スコット、ジェイソン (2012年3月6日). 「クリック:アーカイブチーム - ジェイソン・スコットがデジタル遺産を救う使命について語る」 BBC.オリジナルより2015年4月3日時点のアーカイブ
  38. ^モートン、サイモン、スコット、ジェイソン (2012年3月3日). 「アーカイブチーム」 . RadioNZ . 2012年4月21日時点のオリジナルよりアーカイブ。
  39. ^ミセナー、ダン (2011年4月29日). 「Full Interview: Jason Scott on online video and digital heritage」 . CBC. 2012年10月26日時点のオリジナルよりアーカイブ。
  40. ^ Paul-Choudhury, Sumit (2011年5月6日). 「オンライン遺産のアマチュアヒーロー」 . New Scientist . 2015年4月2日時点のオリジナルよりアーカイブ。 2015年3月9日閲覧