サイトシーアX

サイトシーアX
サイトの種類
書誌データベース
入手可能なスペイン語
所有者ペンシルベニア州立大学情報科学技術学部
収益アクティブ
URLciteseerx .ist .psu .eduWikidataで編集する
登録オプション
発売2008年/ 1997年 (2008年 (1997年
現在の状況アクティブ
コンテンツライセンス
クリエイティブ・コモンズ BY-NC-SAライセンス[ 1 ]

CiteSeerX (多くの場合、 CiteSeer Xと表記されます。以前はCiteSeerと呼ばれていました) は、主にコンピューター サイエンス情報科学の分野における科学論文と学術論文の公開検索エンジンおよびデジタル ライブラリです。

CiteSeerの目標は、学術・科学文献の普及とアクセスの向上です。誰でも無料で利用できる非営利サービスとして、CiteSeerは、学術・科学出版を変革し、科学文献へのアクセスを向上させるオープンアクセス運動の一翼を担っています。CiteSeerは、索引付けされたすべての文書のOpen Archives Initiativeメタデータを無償で提供し、可能な場合はDBLPACM Portalなどの他のメタデータソースにリンクしています。オープンデータを促進するため、CiteSeerXはクリエイティブ・コモンズ・ライセンスに基づき、非営利目的でデータを共有しています。[ 1 ]

CiteSeerは、 Google ScholarMicrosoft Academic Searchといった学術検索ツールの前身と考えられています。[ 2 ] CiteSeerのような検索エンジンやアーカイブは通常、公開されているウェブサイトからのみ文書を収集し、出版社のウェブサイトをクロールしません。そのため、文書が無料で公開されている著者は、インデックスに含まれる可能性が高くなります。

CiteSeerは一度ResearchIndexに名前を変更したが、その後元に戻した。[ 3 ]

歴史

CiteSeer と CiteSeer.IST

CiteSeerは、1997年に米国ニュージャージー州プリンストンのNEC研究所(現NECラボ)に在籍していた研究者、リー・ジャイルズカート・ボラッカースティーブ・ローレンスによって開発されました。CiteSeerの目標は、ウェブ上の学術・科学文書を積極的にクロール・収集し、自律的な引用索引付けを用いて引用または文書による検索を可能にし、引用の影響度に基づいてランキング付けすることでした。かつてはResearchIndexという名称でした。

CiteSeerは1998年に一般公開され、当時の学術検索エンジンにはなかった多くの新機能を備えていました。その中には以下が含まれます。

  • Autonomous Citation Indexing は、文献の検索と評価に使用できる引用インデックスを自動的に作成します。
  • 引用統計と関連文書は、索引付けされた記事だけでなく、データベースで引用されているすべての記事に対して計算されました。
  • 参照リンク。引用リンクを使用してデータベースを参照できます。
  • 引用コンテキストでは、特定の論文の引用のコンテキストが表示されるため、研究者は関心のある論文について他の研究者が何を言っているかをすばやく簡単に確認できます。
  • 関連文書は引用と単語ベースの基準を使用して表示され、各文書に対してアクティブかつ継続的に更新される参考文献が表示されます。

CiteSeer は、2001 年 9 月 11 日に「引用コンテキストを使用した自動引用インデックス作成および文献閲覧というタイトルの米国特許# 6289342 を取得しました。この特許は 1998 年 5 月 20 日に出願され、1998 年 1 月 5 日まで優先権があります。継続特許 (米国特許 # 6738780) は 2001 年 5 月 16 日に出願され、2004 年 5 月 18 日に取得されました。

NECの後、2004年にペンシルベニア州立大学情報科学技術学部でワールドワイドウェブ上にCiteSeer.ISTとしてホストされ、70万件を超える文書を保有していました。アクセス、パフォーマンス、研究を強化するため、マサチューセッツ工科大学チューリッヒ大学シンガポール国立大学などの大学で同様のバージョンのCiteSeerがサポートされていました。しかし、これらのバージョンのCiteSeerは維持が困難であることが判明し、現在は利用できません。CiteSeerはウェブ上で無料で利用できる論文のみを索引付けし、出版社のメタデータにアクセスできないため、出版社のメタデータを持つGoogle Scholarなどのサイトよりも引用数が少なくなります。

CiteSeerは、アーキテクチャ設計上の制約により、2005年以降、包括的なアップデートが行われていませんでした。コンピュータ科学および情報科学分野の研究文書の代表的なサンプルが含まれていましたが、公開されている論文(通常は著者のホームページに掲載されているもの、または著者が投稿したもの)に限定されていたため、カバレッジが限られていました。こうした制約の一部を克服するため、CiteSeer用のモジュール式のオープンソースアーキテクチャであるCiteSeerXが設計されました。

サイトシーアX

CiteSeerXはCiteSeerに取って代わり、CiteSeerへのすべてのクエリはリダイレクトされました。CiteSeerX [ 4 ]は、主にコンピューター科学情報科学に重点を置いた、科学論文と学術論文の公開検索エンジンデジタルライブラリおよびリポジトリです[ 4 ]しかし、最近CiteSeerXは経済学、物理学などの他の学術領域に拡大しています。 2008年にリリースされ、以前のCiteSeer検索エンジンとデジタルライブラリに基づいており、新しいオープンソースインフラストラクチャであるSeerSuite、新しいアルゴリズムとその実装で構築されています。ペンシルベニア州立大学情報科学技術学部の研究者Isaac CouncillとC. Lee Gilesによって開発されました。CiteSeerが概説した目標をサポートし続け、公開ウェブ上の学術文書と科学文書を積極的にクロールして収集し、引用による引用調査と引用の影響による文書のランキングを使用します。現在、Lee Giles、Prasenjit Mitra、Susan Gauch、Min-Yen Kan、Pradeep Teregowda、Juan Pablo Fernández Ramírez、Pucktada Treeratpituk、Jian Wu、Douglas Jordan、Steve Carman、Jack Carroll、Jim Jansen、Shuyi Zhengが開発に積極的に関与しています。最近、テーブル検索機能が導入されました。[ 5 ]このプロジェクトは、米国国立科学財団NASAMicrosoft Researchの資金提供を受けています。

CiteSeerXは、世界トップクラスのリポジトリの1つとして評価され続けており、2010年7月には1位にランクされました。[ 6 ]現在、600万件以上の文書が登録されており、約600万人の著者と1億2000万件の引用があります。

CiteSeerXはソフトウェア、データ、データベース、メタデータを他の研究者と共有しており、現在はAmazon S3rsyncを使用しています。[ 7 ]新しいモジュール式のオープンソースアーキテクチャとソフトウェア(以前はSourceForgeで提供されていましたが、現在はGitHubで提供されています)は、 Apache Solrやその他のApacheおよびオープンソースツール上に構築されており、ドキュメントの収集、ランキング付け、インデックス作成、情報抽出における新しいアルゴリズムのテストベッドとして利用できます。

CiteSeerXはスキャンしたPDFファイルの一部をキャッシュします。そのため、各ページには著作権侵害を報告するためのDMCAリンクが含まれています。 [ 8 ]

現在の機能

自動情報抽出

CiteSeerXは、通常ParsCitなどの機械学習手法に基づいて構築された自動情報抽出ツールを使用して、タイトル、著者、抄録、引用文献などの学術文書のメタデータを抽出します。そのため、著者やタイトルに誤りが含まれる場合があります。他の学術検索エンジンでも同様の誤りがあります。

集中クローリング

CiteSeerXは、公開されている学術文書を主に著者のウェブページやその他のオープンリソースからクロールしており、出版社のメタデータにはアクセスできません。そのため、CiteSeerXの引用数は、出版社のメタデータにアクセスできるGoogle ScholarやMicrosoft Academic Searchの引用数よりも少なくなる傾向があります。

使用法

CiteSeerXは、ユニークIPアドレスに基づいて世界中に約100万人のユーザーを抱え、毎日数百万件のアクセス数を記録しています。2015年のPDF文書の年間ダウンロード数は約2億件でした。

データ

CiteSeerX データは、Creative Commons BY-NC-SA ライセンスの下で世界中の研究者と定期的に共有されており、多くの実験やコンテストで使用されています。

OAI-PMHエンドポイントのおかげで、[ 9 ] CiteSeerXはオープンアーカイブとなり、そのコンテンツはBASEUnpaywallなどの学術検索エンジン機関リポジトリのようにインデックス化されます。

その他のSeerSuiteベースの検索エンジン

CiteSeerモデルは、SmealSearchによってビジネス分野の学術文書、 eBizSearchによってeビジネス分野の学術文書をカバーするように拡張されました。しかし、これらはスポンサーによってメンテナンスされていませんでした。これらの旧バージョンはかつてBizSeer.ISTで見つかりましたが、現在は利用できません。

Seerに似た検索・リポジトリシステムは、化学分野(ChemXSeer)や考古学分野(ArchSeer)向けに構築されています。また、robots.txtファイル検索用のBotSeerも構築されています。これらはすべて、オープンソースのインデクサーLuceneを使用するオープンソースツールSeerSuite上に構築されています。

参照

参考文献

  1. ^ a b「CiteSeerXデータポリシー」 。 2012年1月5日時点のオリジナルよりアーカイブ2015年11月10日閲覧。
  2. ^ Kodakateri Pudhiyaveetil, Ajith; Gauch, Susan; Luong, Hiep; Eno, Josh (2009). 「CiteSeerXのための概念的レコメンデーションシステム」.第3回ACMレコメンデーションシステム会議議事録. ニューヨーク: ACM Press. p. 241. doi : 10.1145/1639714.1639758 . ISBN 978-1-60558-435-5. S2CID  13900679 .
  3. ^ローレンス、スティーブ (2001). 「ResearchIndex: 世界最大の科学文献無料フルテキスト索引の中身」.国際知識獲得会議 (K-CAP 2001) 議事録. p. 3. doi : 10.1145/500737.500740 . ISBN 1-58113-380-4. S2CID  19592721 .
  4. ^ a b「CiteSeerXについて」2010年7月22日時点のオリジナルよりアーカイブ2010年5月7日閲覧。
  5. ^ 「CiteSeerXチーム」ペンシルベニア州立大学。2018年7月26日時点のオリジナルよりアーカイブ2018年5月1日閲覧。
  6. ^ 「Ranking Web of World Repositories: Top 800 Repositories」 . Cyber​​metrics Lab. 2010年7月. 2010年7月24日時点のオリジナルよりアーカイブ。 2010年7月24日閲覧
  7. ^ 「CiteSeerXデータについて」ペンシルベニア州立大学。2012年1月5日時点のオリジナルよりアーカイブ2012年1月25日閲覧。
  8. ^例えば、「CiteSeerx – DMCA Notice」。CiteSeerX 10.1.1.604.4916。 2022年3月18日にオリジナルからアーカイブ。識別子「10.1.1.604.4916」の文書は DMCA削除通知により削除されました。削除が誤りであると思われる場合は、このページに記載されている識別子とともに、フィードバックページからご連絡ください。 
  9. ^ Hirst, Tony (2011-12-08). 「OAI-PMHをCiteseerの単一レコードレベルクエリインターフェースとして使用する」 . 2020年11月24日時点のオリジナルよりアーカイブ。 2020年4月25日閲覧

さらに読む