Apache Lucene

ルシーン
開発者Apacheソフトウェア財団
初回リリース1999 (1999年
安定版リリース
10.3.1 / 2025年10月6日[ 1 ] (2025年10月6日
リポジトリ
書かれたジャワ
オペレーティング·システムクロスプラットフォーム
タイプ検索インデックス
ライセンスApacheライセンス2.0
Webサイトlucene .apache .org

Apache Luceneは、 Doug CuttingによってJavaで開発された、無料のオープンソース検索エンジンソフトウェアライブラリです。Apache Software Foundationによってサポートされており、 Apache Software Licenseに基づいてリリースされています。Luceneは、実稼働検索アプリケーションの標準基盤として広く利用されています。[ 2 ] [ 3 ] [ 4 ]

LuceneはObject PascalPerlC#C++PythonRubyPHPなどの他のプログラミング言語にも移植されています。[ 5 ]

歴史

ダグ・カッティングは1999年にLuceneを初めて開発しました。[ 6 ] Luceneは彼にとって5番目の検索エンジンでした。彼はそれ以前にも、ゼロックスPARC在籍時に2つ、アップル社で1つ、そしてエキサイト社で4つ目の検索エンジンを開発していました。[ 7 ]当初はSourceForgeのウェブサイトからダウンロード可能でした。2001年9月にApache Software FoundationのオープンソースJava製品群であるJakartaファミリーに加わり、2005年2月に独立したApacheのトップレベルプロジェクトとなりました。Luceneという名前は、ダグ・カッティングの妻のミドルネームと母方の祖母のファーストネームに由来しています。[ 8 ]

Luceneには以前、Lucene.NET、 MahoutTikaNutchといった複数のサブプロジェクトが含まれていました。現在、これら3つは独立したトップレベルプロジェクトとなっています。

2010 年 3 月、Apache Solr検索サーバーが Lucene サブプロジェクトとして参加し、開発者コミュニティが統合されました。

バージョン4.0は2012年10月12日にリリースされました。[ 9 ]

2021 年 3 月に Lucene はロゴを変更し、Apache Solr はLucene から独立して再びトップレベルの Apache プロジェクトになりました。

機能と一般的な使用方法

Luceneは、フルテキストのインデックス作成と検索機能を必要とするあらゆるアプリケーションに適していますが、インターネット検索エンジンやローカルの単一サイト検索の実装における有用性が認められています。 [ 10 ] [ 11 ]

Luceneには編集距離に基づいてあいまい検索を実行する機能が含まれています。[ 12 ]

Luceneは推薦システムの実装にも使われてきた。[ 13 ]例えば、Luceneの「MoreLikeThis」クラスは類似文書の推薦を生成することができる。「MoreLikeThis」の用語ベクトルベースの類似性アプローチと、共引用や共引用近接分析などの引用ベースの文書類似性尺度とを比較すると、Luceneのアプローチは構造的特徴が非常に類似し関連性がより狭い文書を推薦することに優れていることがわかった。[ 14 ]対照的に、引用ベースの文書類似性尺度は関連が広い文書を推薦するのに適している傾向があり、[ 14 ]推薦される文書に本文中引用が含まれている限り、引用 ベースのアプローチは偶然の推薦を生成するのにより適している可能性がある。

Luceneベースのプロジェクト

Lucene自体はインデックス作成と検索を行うライブラリであり、クロールやHTML解析機能は備えていません。しかし、Luceneの機能を拡張するプロジェクトがいくつかあります。

参照

参考文献

  1. ^ 「Apache Luceneへようこそ」。Lucene™ニュースセクション。2021年2月12日時点のオリジナルよりアーカイブ。2020年2月12日閲覧。
  2. ^ Kamphuis, Chris; de Vries, Arjen P.; Boytsov, Leonid; Lin, Jimmy (2020)、「Which BM25 do You Mean? A Large-Scale Reproducibility Study of Scoring Variants」、Jose, Joemon M.; Yilmaz, Emine; Magalhães, João; Castells, Pablo (eds.)、Advances in Information Retrieval、Lecture Notes in Computer Science、vol. 12036、Cham: Springer International Publishing、pp.  28– 34、doi : 10.1007/978-3-030-45442-5_4ISBN 978-3-030-45441-8PMC  7148026
  3. ^ Grand, Adrien; Muir, Robert; Ferenczi, Jim; Lin, Jimmy (2020)、「MAXSCOREからBlock-Max Wandへ:Luceneがクエリ評価パフォーマンスを大幅に向上させたストーリー」、Jose, Joemon M.; Yilmaz, Emine; Magalhães, João; Castells, Pablo(編)、『情報検索の進歩』『コンピュータサイエンスの講義ノート』第12036巻、Cham: Springer International Publishing、pp.  20– 27、doi : 10.1007/978-3-030-45442-5_3ISBN 978-3-030-45441-8PMC  7148045
  4. ^アゾパルディ、レイフ;モシュフェギ、ヤシャル。ハルベイ、マーティン。アルハワルデ、ラミ S.バログ、クリスティアン。ディ・ブッチョ、エマヌエーレ。チェッカレッリ、ディエゴ。フェルナンデス=ルナ、フアン・M.ハル、チャーリー。マニックス、ジェイク。パルチョードリー、サウパルナ(2017-02-14)。「Lucene4IR: Lucene を使用した情報検索評価リソースの開発」ACM SIGIR フォーラム50 (2): 58–75 .土井: 10.1145/3053408.3053421ISSN 0163-5840S2CID 212416159  
  5. ^ "LuceneImplementations" . apache.org . 2025年3月25日閲覧。
  6. ^ KeywordAnalyzer 「Apache LuceneとSolrによる検索の効率化」(PDF) 2007年11月19日. 2012年1月31日時点のオリジナル(PDF)からのアーカイブ
  7. ^ Cutting, Doug (2019年6月7日). 「Xerox PARCでいくつかの検索エンジンを開発し、その後AppleでV-Twinを開発し、その後Exciteの検索を書き直し、そしてLuceneを開発しました。つまり、LuceneはV-Twin 3.0と言えるのでしょうか? 25年近く経った今でも、V-TwinはMac OS X Search Kitとして生き続けています!」 . @cutting . 2019年6月19日閲覧。
  8. ^ Barker, Deane (2016). Webコンテンツ管理. O'Reilly. p. 233. ISBN 978-1491908105
  9. ^ “Apache Lucene - Welcome to Apache Lucene” . apache.org . 2016年2月4日時点のオリジナルよりアーカイブ。 2016年2月4日閲覧
  10. ^マッキャンドレス, マイケル;ハッチャー, エリック; ゴスポドネティッチ, オティス (2010). Lucene in Action, 第2版. マニング. p.  8. ISBN 978-1933988177
  11. ^ 「GNU/Linux セマンティックストレージシステム」(PDF) . glscube.org . 2010年6月1日時点のオリジナル(PDF)からのアーカイブ
  12. ^ 「Apache Lucene - クエリパーサー構文」 . lucene.apache.org . 2017年5月2日時点のオリジナルよりアーカイブ。
  13. ^ J. Beel、S. Langer、B. Gipp、「Docearの研究論文推薦システムのアーキテクチャとデータセット」、ACM/IEEEデジタル図書館合同会議(JCDL 2014)の第3回国際科学出版物マイニングワークショップ(WOSP 2014)議事録、英国ロンドン、2014年
  14. ^ a b M. Schwarzer、M. Schubotz、N. Meuschke、C. Breitinger、V. Markl、B. Gipp、https://www.gipp.com/wp-content/papercite-data/pdf/schwarzer2016.pdf「Wikipedia のリンクベースの推奨事項の評価」、第 16 回 ACM/IEEE-CS 合同デジタル図書館会議 (JCDL) の議事録、ニューヨーク、ニューヨーク州、米国、2016 年、pp. 191-200。
  15. ^ Wayner, Peter. 「今すぐ探索する価値のある11の最先端のデータベース」 InfoWorld. 2015年9月21日時点のオリジナルよりアーカイブ。 2015年9月21日閲覧
  16. ^ 「Elasticsearch: RESTful、分散型検索&分析 - Elastic」 elastic.co 2015年10月8日時点のオリジナルよりアーカイブ2015年9月23日閲覧
  17. ^ 「CompassとElasticsearchの未来」。the dude abides2015年10月15日時点のオリジナルよりアーカイブ2015年10月14日閲覧。
  18. ^ a b Natividad, Angela. 「Socialtext Updates Search, Goes Kino」 . CMS Wire. 2012年9月29日時点のオリジナルよりアーカイブ。 2011年5月31日閲覧
  19. ^ Marvin Humphrey. 「KinoSearch - 検索エンジンライブラリ - metacpan.org」 . p3rl.org . 2015年9月23日閲覧
  20. ^ディメント、キエレン、トラウト、マット・S (2009). 「Catalyst Cookbook」. Catalyst決定版ガイド. Apress . p.  280. ISBN 978-1-4302-2365-8
  21. ^ Wishart, DS ; et al. (2009年1月). 「HMDB:ヒトメタボロームのための知識ベース」 . Nucleic Acids Res. 37 (データベース号): D603–10. doi : 10.1093/nar/gkn810 . PMC 2686599. PMID 18953024 .  
  22. ^ Lim, Emilia; Pon, Allison; Djoumbou, Yannick; Knox, Craig; Shrivastava, Savita; Guo, An Chi; Neveu, Vanessa; Wishart, David S. (2010年1月). 「T3DB:一般的な毒素とその標的に関する包括的注釈付きデータベース」 . Nucleic Acids Res . 38 (データベース号): D781–6. doi : 10.1093 / nar/gkp934 . PMC 2808899. PMID 19897546 .  

参考文献

  • ゴスポドネティック、オーティス、エリック・ハッチャー、マイケル・マッキャンドレス(2009年6月28日)『Lucene in Action』(第2版)Manning Publications . ISBN 978-1-9339-8817-7
  • ゴスポドネティック、オーティス、エリック・ハッチャー(2004年12月1日)『Lucene in Action』(第1版)Manning Publications . ISBN 978-1-9323-9428-3