検索結果クラスタリングエンジン
Carrot 2
開発者Carrot Search
安定版リリース
4.8.0 / 2025年7月23日 ( 2025-07-23 )
リポジトリgithub.com /carrot2 /carrot2 /
言語Java
オペレーティングシステムクロスプラットフォーム
タイプテキストマイニングクラスタ分析
ライセンスBSDライセンス
ウェブサイトsearch.carrot2.org

Carrot² [ 1 ]はオープンソース検索結果クラスタリングエンジンです。[ 2 ]検索結果や文書の要約などの小さな文書コレクションを、テーマ別のカテゴリに自動的にクラスタリングできます。Carrot²はJavaで記述されており、 BSDライセンスの下で配布されています。

歴史

[編集]

Carrot²の初期バージョンは、2001年にDawid Weissによって、ポーランド語の検索結果のクラスタリングへのSTCクラスタリングアルゴリズムの適用可能性を検証するための修士論文の一部として実装されました。[ 3 ] 2003年には、検索結果のクラスタリング専用に設計された新しいテキストクラスタリングアルゴリズムであるLingo [ 4 ]など、他の多くの検索結果クラスタリングアルゴリズムが追加されました。Carrot²のソースコードは2002年から入手可能でしたが、バージョン1.0が正式にリリースされたのは2006年でした。同年、ユーザーインターフェースの改善とツールセットの拡張を備えたバージョン2.0がリリースされました2009年のバージョン3.0では、クラスタリング品質の大幅な向上、APIの簡素化、Eclipse Rich Client Platformに基づくクラスタリングチューニング用の新しいGUIアプリケーションが導入されました。2020年のバージョン4.0.0では、APIのさらなる簡素化、コードのクリーンアップ、デスクトップワークベンチの削除が行われました。バージョン4.1.0では、ワークベンチがWebベースのアプリケーションとして復活しました。

Carrot² リリース
リリース リリース日 主な変更点と新機能
4.8.0 2025年7月 依存関係の更新、ビルドシステムの改善。最低限必要なプラットフォームとしてJava 21に切り替えます。
4.7.0 2025年2月 依存関係の更新
4.6.0 2024年5月 依存関係の更新、ビルドシステムの改善
4.5.2 2023年11月 依存関係の更新、ビルドシステムの改善
4.5.1 2023年5月 依存関係の更新、軽微なバグ修正
4.5.0 2022年11月 依存関係の更新、バグ修正
4.4.3 2022年8月 依存関係の更新、STCおよびステミングインフラストラクチャのバグ修正
4.4.0、4.4.1、4.4.2 2021年12月 セキュリティ修正と依存関係の更新
4.3.0 2021年7月 APIの軽微な変更とバグ修正。ワークベンチ(DCS検索フロントエンド)の改善。
4.2.0、4.2.1 2021年3月 JSON辞書とワークベンチの改善。バグ修正。
4.1.0 2021年1月 Webベースのワークベンチ。JSON辞書と新しいフィルタリングオプション。APIの洗練。
4.0.0 2020年7月 コードベース全体のAPIの変更と簡素化。非推奨の技術とツールの削除。新しいドキュメントとコードのクリーンアップ。
3.16.2 2019年9月 サードパーティライブラリの更新(セキュリティ関連の問題)。
3.16.1 2019年1月 JSビジュアライゼーションの更新。Microsoft Bing API v5からv7への移行。
3.16.0 2018年5月 Java 9以降の互換性問題の徹底的な見直し。Ubuntuディストリビューション向けのワークベンチ互換性。ドキュメントソースの更新と機能しないドキュメントソースの削除。
3.15.1 2017年3月 アクセスできない現在の作業ディレクトリで未チェックI/O例外が発生する可能性がある.NETリリースのバグ修正。
3.15.0 2016年10月 Bing API V2からV5への移行。サードパーティ依存関係のアップグレード。内部の外観。
3.14.0 2016年9月 ワークベンチの改善(高DPIサポート、MacOSXの改善、バグ修正)。PubMedのHTTPSへの切り替え。その他の軽微な改善。
3.13.0 2016年7月 サーブレットAPIのバグ修正、ワークベンチのバグ修正、Googleドキュメントソースの削除、いくつかの言語の言語コードの修正。
3.12.0 2016年2月 Morfologikポーランド語辞書のアップグレード、C2がより厳格なセキュリティマネージャーポリシーの下で動作できるようにインフラストラクチャの変更と調整。
3.11.0 2015年10月 Apache Luceneのアップグレード、バグ修正、および3.10.xマイナーバージョンからの変更のロールアップ。
3.10.4 2015年10月 Morfologikライブラリのアップグレード。
3.10.3 2015年8月 Solrとの競合を回避するため、Google Guavaを再パッケージ化。
3.10.2 2015年7月 ワークベンチ(アラビア語クラスタ表示)のマイナー修正。
3.10.1 2015年5月 MacOSディストリビューションからAdunaの視覚化が削除されました。ワークベンチのマイナー修正。
3.10.0 2015年5月 視覚化の更新。バグ修正。ライブラリ依存関係の更新。
3.9.4 2014年11月 FoamTreeの更新。多言語クラスタリング用の新しい属性。視覚化の修正。
3.9.3 2014年7月 FoamTreeの更新。インフラストラクチャの修正と調整(jflex、sonatypeリポジトリURL)。
3.9.2 2014年4月 FoamTree HTML5のバグ修正。
3.9.1 2014年4月 バグ修正、HTML5視覚化のアップグレード。
3.9.0 2014年2月 FlashをHTML5視覚化に置き換える、ライブラリ依存関係の更新、バグ修正。
3.8.1 2013年10月 バグ修正、機能のマイナー調整。
3.8.0 2013年7月 バグ修正、ライブラリ依存関係の更新。
3.7.1 2013年5月 軽微なバグ修正(3.7.0メンテナンスリリース)
3.7.0 2013年4月 コアのインフラストラクチャ変更(文字列ID)、Solr統合XSLTの改善、より大きな入力のためのワークベンチの調整、依存関係の更新
3.6.3 2013年4月 軽微なバグ修正と改善:SolrアダプタXSLTのカスタマイズ、より大きな入力のためのワークベンチの調整、依存関係の更新
3.6.2 2012年11月 軽微なバグ修正と改善
3.6.1 2012年8月 軽微なバグ修正
3.6.0 2012年6月 インフラストラクチャの変更、リファクタリング、バグ修正
3.5.3 2011年12月 GitHubへの移行に伴うインフラストラクチャの更新。ワークベンチのSWT 3.7.1への更新
3.5.2 2011年9月 ドキュメントクラスタリングサーバーでのAjaxサポート、Bingドキュメントソースの改善、ワークベンチの改善、バグ修正。
3.5.1 2011年6月 バグ修正、視覚化統合の改善、Yahoo BOSS APIのサポート削除。
3.5.0 2011年5月 FoamTree視覚化、二分法k-meansクラスタリング、リソース管理の改善
3.4.3 2011年3月 Maven中央リポジトリ への配布
3.4.2 2010年10月 バグ修正
3.4.1 2010年9月 Solr 1.4.x互換パッケージ、バグ修正
3.4.0 2010年8月 Carrot²クラスタリングを呼び出すための.NET API
3.3.0 2010年4月 STCクラスタリングアルゴリズムのスケーラビリティの大幅な向上
3.2.0 2010年3月 アラビア語と韓国語のコンテンツのクラスタリングの実験的サポート、バッチモードでのクラスタリング用のコマンドラインアプリケーション、LGPLライセンスの依存関係の削除
3.1.0 2009年9月 中国語コンテンツのクラスタリングの実験的サポート、Apache Solr用の検索結果クラスタリングプラグイン
3.1.0 2009年9月 中国語コンテンツのクラスタリングの実験的サポート、Apache Solr用の検索結果クラスタリングプラグイン
3.0.1 2009年3月 Mac OS XでDocument Clustering Workbenchが利用可能
3.0.0 2009年1月 Carrot²クラスタリングを簡単に試すためのドキュメントクラスタリングワークベンチの追加、Java APIの大幅な簡素化、検索結果クラスタリングWebアプリケーションの再実装、ユーザーマニュアル[ 5 ]の提供
2.1.0 2007年8月 クラスタリングをRESTサービス として公開するためのドキュメントクラスタリングサーバーが追加されました
2.0.0 2006年9月 検索結果クラスタリングWebアプリケーションの新しいユーザーインターフェース
1.0.0 2006年1月 最初の公式リリース、バイナリはSourceForgeで入手可能
0.0.0 2002年以降 インキュベーションリリース、ソースコードはSourceForgeで入手可能

アーキテクチャ

[編集]

Carrot² 4.0は、主にJavaプログラミングライブラリであり、言語固有のリソースの管理、アルゴリズムの設定と実行のための公開APIを備えています。他の言語との相互運用性のために、HTTP/RESTコンポーネント(ドキュメントクラスタリングサーバー)が提供されています。

クラスタリングアルゴリズム

[編集]

Carrot²は、クラスタラベルの品質を重視したいくつかのドキュメントクラスタリングアルゴリズムを提供しています。

スピンオフ

[編集]
[編集]

Carrot Searchは、 Carrot²プロジェクトの商業スピンオフであり、 [ 7 ] Carrot²のさらなる開発に取り組んでおり、Carrot²フレームワークに準拠したリアルタイムテキストクラスタリングアルゴリズム[ 8 ]と、オープンソースおよびプロプライエタリソフトウェアに基づくテキストマイニングコンサルティングサービスを提供しています。

Carrot Search Labs

[編集]

Carrot²は、Carrot Search Labsの傘下でリリースされた多くの独立したオープンソースプロジェクトを生み出しました。[ 9 ]以下のプロジェクトは、この取り組みの一環として公開されています。

  • ランダム化テスト:すべてのテスト実行をわずかに異なる(ランダム化)にするためのユーティリティが組み込まれたJUnitテストランナー。また、負荷分散などの機能を備えた並列JVM上でJUnitテストを実行するためのANTタスクでもあります
  • Java用高性能プリミティブコレクション(HPPC):最高のパフォーマンスとメモリ効率を実現するために調整された、Java用のリスト、セット、マップなどのプリミティブコレクション。
  • SmartSprites:CSSスプライトの完全自動メンテナンス。スプライト画像を追加または変更する際に、CSSへの面倒なコピー&ペーストは不要です。

廃止されたプロジェクト:

  • jSuffixArrays:パフォーマンスとメモリ特性が異なる、Suffix Arrayデータ構造のJava実装。
  • JUnitBenchmarks:GCモニタリング、時間変動測定、シンプルなグラフィカルな視覚化を備えた、JUnit4テストをパフォーマンスマイクロベンチマークに変換するための拡張機能セット。

参照

[編集]

参考文献

[編集]
  1. ^ Carrot2プロジェクト、Stanislaw Osinski、Dawid Weiss。「Carrot2 - オープンソース検索結果クラスタリングエンジン」 {{cite web}}: CS1 maint: 複数名: 著者リスト (リンク) CS1 maint: 数値名: 著者リスト (リンク)
  2. ^ Carrot 2検索結果クラスタリングデモ
  3. ^ Dawid Weiss:ポーランド語と英語のウェブ検索結果のためのクラスタリングインターフェース。修士論文。ポズナン工科大学、ポーランド、ポズナン、2001年。PDFをダウンロード
  4. ^ a b Stanisław Osiński, Dawid Weiss:検索結果のクラスタリングのための概念駆動型アルゴリズム。IEEE Intelligent Systems、2005年5月/6月号、第3巻(第20巻)、48~54ページ
  5. ^ 「Carrot2」
  6. ^ オレン・ザミール、オレン・エツィオーニ「ウェブ文書クラスタリング:実現可能性の実証」、情報検索における研究開発に関する第21回年次国際ACM SIGIR会議議事録(1998年)、46~54ページ
  7. ^ Carrot Search sc 「Carrot Search:文書クラスタリングおよび視覚化ソフトウェア」
  8. ^ Carrot Search sc 「Carrot Search:Lingo3G:テキスト文書クラスタリングエンジン」
  9. ^ Carrot Search sc 「Carrot Search Labs」