著者名の曖昧さ回避

著者名「Li Li」は、ここに挙げた 7 名を含め、複数の人物を指している可能性があります。

著者名の曖昧性解消とは、個人名に適用される 曖昧性解消レコードのリンク付けのプロセスです。このプロセスにより、例えば「John Smith」という名前を持つ個人を区別することができます。

編集者は、同じ著者への言及をすべて見つけてまとめることを目的とした学術文書にこのプロセスを適用することがあります。学術文書の著者はしばしば同じ名前を共有しているため、各著者の著作を区別することが困難です。したがって、著者名の曖昧性解消は、特定の著者に属するすべての出版物を見つけ出し、同じ名前を共有する他の著者の出版物と区別することを目的としています。

方法

著者名の曖昧性解消については、かなりの研究が行われてきました。[ 1 ] [ 2 ] [ 3 ] [ 4 ] [ 5 ]著者名の曖昧性解消の一般的なアプローチは、著者を区別するための情報に依存しており、これには著者に関する情報(名前の表記、所属、電子メールアドレスなど)と、出版物に関する情報(出版年、共著者、論文のトピックなど)が含まれます(ただし、これらに限定されません)。この情報を使用して、2 人の著者言及が同じ著者を指しているかどうかを判断できるように機械学習分類器をトレーニングできます。 [ 6 ]多くの研究では、名前の曖昧性解消はクラスタリングの問題、つまり、それぞれが著者を表すクラスターに文書を分割する問題とみなされています。[ 2 ] [ 7 ] [ 8 ]他の研究では、分類問題として扱われています。[ 9 ]いくつかの研究では、ドキュメントグラフが構築され、グラフトポロジーを使用してドキュメントの類似性を学習します。[ 8 ] [ 10 ]最近、いくつかの研究[ 10 ] [ 11 ]は、ネットワーク埋め込み法を用いて低次元の文書表現を学習することを目的としている。[ 12 ] [ 13 ]

アプリケーション

同一人物が著者であると示されるいくつかの方法

著者名が曖昧になる理由は複数ありますが、その中には、異なる翻字、スペルミス、結婚による改名、ニックネームやミドルネーム、イニシャルの使用など、さまざまな理由から個人が複数の名前で出版する場合があります。[ 14 ]

個人の曖昧性を解消する動機としては、特許から発明者を特定することや、出版社、研究機関、期間が異なる研究者を特定することなどが挙げられる。[ 15 ]名前の曖昧性の解消は、 AMiner(旧ArnetMiner)などの著者中心の学術検索およびマイニングシステムの基礎でもある。 [ 16 ]

同様の問題

著者名の曖昧性解消は、学術データ分野におけるレコードリンケージの問題の一つに過ぎません。密接に関連し、潜在的に相互に有益な問題としては、組織(所属)の曖昧性解消[ 17 ]や、会議や出版の開催地の曖昧性解消などが挙げられます。これは、データ出版者がこれらの実体に異なる名前や別名を使用することが多いためです。

参照

  • 典拠管理 – 書誌情報に使用される固有の見出し

リソース

著者名の曖昧さ回避を評価するためのよく知られたベンチマークがいくつか以下にリストされています。各ベンチマークでは、出版物に曖昧な名前とその根拠がいくつか提供されています。

ソースコード

参考文献

  1. ^ De Bonis, Michele; Manghi, Paolo; Falchi, Fabrizio (2023). 「著者名の曖昧性解消のためのグラフベース手法:概説」 . PeerJ Computer Science . 9 e1536. doi : 10.7717/peerj-cs.1536 . PMC  10557506. PMID  37810360 .
  2. ^ a b Khabsa, Madian; Treeratpituk, Pucktada; Giles, C. Lee (2015). Proceedings of the 15th ACM/IEEE-CE on Joint Conference on Digital Libraries - JCDL '15 . pp.  37– 46. doi : 10.1145/2756406.2756915 . ISBN 9781450335942. S2CID  14068285 .
  3. ^ Mann, Gideon S.; Yarowsky, David (2003). 「教師なし個人名曖昧性解消」. HLT-NAACL 2003 - 第7回自然言語学習会議議事録. 第4巻. pp.  33– 40. doi : 10.3115/1119176.1119181 . S2CID 29759924 . 
  4. ^ Han, Hui; Giles, Lee; Zha, Hongyuan; Li, Cheng; Tsioutsiouliklis, Kostas (2004). 「著者名引用における名前の曖昧性解消のための2つの教師あり学習アプローチ」. 2004年ACM/IEEE合同デジタルライブラリ会議 - JCDL '04 議事録. p. 296. doi : 10.1145/996350.996419 . ISBN 1581138326. S2CID  1089260 .
  5. ^ Huang, Jian; Ertekin, Seyda; Giles, C. Lee (2006).データベースにおける知識発見:PKDD 2006 . コンピュータサイエンス講義ノート. 第4213巻. pp.  536– 544. doi : 10.1007/11871637_53 . ISBN 978-3-540-45374-1. ISSN  0302-9743 . S2CID  14132755 .
  6. ^ Treeratpituk, Pucktada; Giles, C. Lee (2009). 「ランダムフォレストを用いた学術出版物における著者の曖昧性解消」(PDF) .第9回ACM/IEEE-CS合同デジタルライブラリ会議議事録. ACM . pp.  39– 48. CiteSeerX 10.1.1.147.3500 . doi : 10.1145/1555400.1555408 . ISBN  978-1-60558-322-8
  7. ^ Jie Tang; ACM Fong; Bo Wang; Jing Zhang (2012). 「デジタルライブラリにおける名前の曖昧性解消のための統一確率的フレームワーク」. IEEE Transactions on Knowledge and Data Engineering . 24 (6). IEEE: 975– 987. Bibcode : 2012ITKDE..24..975T . doi : 10.1109/TKDE.2011.13 . S2CID 1032074 . 
  8. ^ a b Xuezhi Wang、Jie Tang、Hong Cheng、Philip S. Yu (2011). 「ADANA: Active Name Disambiguation」. 2011 IEEE 第11回国際データマイニング会議. バンクーバー: IEEE. pp.  794– 803. doi : 10.1109/ICDM.2011.19 . ISBN 978-1-4577-2075-8
  9. ^ Zeyd Boukhers、Nagaraj Bahubali Asundi (2022). 「Whois? 書誌データを用いた著者名の深層曖昧性解消」.デジタル図書館の理論と実践の連携. コンピュータサイエンス講義ノート. 第13541巻. パドヴァ: Springer. pp.  201– 215. arXiv : 2207.04772 . doi : 10.1007/978-3-031-16802-4_16 . ISBN 978-3-031-16801-7
  10. ^ a b c Yutao Zhang、Fanjin Zhang、Peiran Yao、Jie Tang (2018). 「AMinerにおける名前の曖昧性解消:クラスタリング、メンテナンス、そして人間による介入」第24回ACM SIGKDD国際知識発見&データマイニング会議議事録. ACM. pp.  1002– 1011. doi : 10.1145/3219819.3219859 . ISBN 978-1-4503-5552-0
  11. ^ Baichuan Zhang、Mohammad Al Hasan (2017). 「ネットワーク埋め込みを用いた匿名グラフにおける名前の曖昧性解消」 . 2017 ACM on Conference on Information and Knowledge Management の議事録. ACM. pp.  1239– 1248. doi : 10.1145/3132847.3132873 . ISBN 978-1-4503-4918-5
  12. ^ブライアン・ペロッツィ、ラミ・アル=ルフー、スティーブン・スキエナ (2014). 「DeepWalk: 社会的表現のオンライン学習」 .第20回ACM SIGKDD国際会議知識発見とデータマイニングの議事録. ACM. pp.  701– 710. arXiv : 1403.6652 . doi : 10.1145/2623330.2623732 . ISBN 978-1-4503-2956-9
  13. ^ Jiezhong Qiu、Yuxiao Dong、Hao Ma、Jian Li、Kuansan Wang、Jie Tang (2018). 「ネットワーク埋め込みを行列分解として:DeepWalk、LINE、PTE、node2vecの統合」.11回ACM国際ウェブ検索・データマイニング会議論文集. ACM. pp.  459– 467. arXiv : 1710.02971 . doi : 10.1145/3159652.3159706 . ISBN 978-1-4503-5581-0
  14. ^ Smalheiser, Neil R.; Torvik, Vetle I. (2009). 「著者名の曖昧性解消」. Annual Review of Information Science and Technology . 43 : 1– 43. doi : 10.1002/aris.2009.1440430113 .
  15. ^ Morrison, Greg; Riccaboni, Massimo; Pammolli, Fabio (2017年5月16日). 「高解像度の位置情報データを用いた特許発明者および譲受人の曖昧性解消」 . Scientific Data . 4 170064. Bibcode : 2017NatSD...470064M . doi : 10.1038/sdata.2017.64 . PMC 5433392. PMID 28509897 .  
  16. ^ Jie Tang、Jing Zhang、Limin Yao、Juanzi Li、Li Zhang、Zhong Su (2008). 「ArnetMiner:学術ソーシャルネットワークの抽出とマイニング」.第14回ACM SIGKDD国際会議「知識発見とデータマイニング」の議事録. ニューヨーク: ACM. pp.  990– 998. doi : 10.1145/1401890.1402008 . ISBN 978-1-60558-193-4
  17. ^ Zhang, Ziqi; Nuzzolese, Andrea; Gentile, Anna Lisa (2017). ScholarlyDataにおけるエンティティ重複除去.Extended Semantic Web Conference Proceedings. Springer-Verlag . pp.  85– 100. doi : 10.1007/978-3-319-58068-5_6 .
  18. ^ Subramanian, Shivashankar; King, Daniel; Downey, Doug; Feldman, Sergey (2021年3月21日). 「S2AND: 著者名の曖昧性解消のためのベンチマークおよび評価システム」. arXiv : 2103.07534 [ cs.DL ].