| Carrot 2 | |
|---|---|
Carrot 2のLingoアルゴリズムを使用してクラスタ化されたWeb検索結果。 | |
| 開発者 | Carrot Search |
| 安定版リリース | 4.8.0 / 2025年7月23日 ( 2025-07-23 ) |
| リポジトリ | github.com /carrot2 /carrot2 / |
| 言語 | Java |
| オペレーティングシステム | クロスプラットフォーム |
| タイプ | テキストマイニングとクラスタ分析 |
| ライセンス | BSDライセンス |
| ウェブサイト | search.carrot2.org |
Carrot² [ 1 ]はオープンソースの検索結果クラスタリングエンジンです。[ 2 ]検索結果や文書の要約などの小さな文書コレクションを、テーマ別のカテゴリに自動的にクラスタリングできます。Carrot²はJavaで記述されており、 BSDライセンスの下で配布されています。
歴史
[編集]Carrot²の初期バージョンは、2001年にDawid Weissによって、ポーランド語の検索結果のクラスタリングへのSTCクラスタリングアルゴリズムの適用可能性を検証するための修士論文の一部として実装されました。[ 3 ] 2003年には、検索結果のクラスタリング専用に設計された新しいテキストクラスタリングアルゴリズムであるLingo [ 4 ]など、他の多くの検索結果クラスタリングアルゴリズムが追加されました。Carrot²のソースコードは2002年から入手可能でしたが、バージョン1.0が正式にリリースされたのは2006年でした。同年、ユーザーインターフェースの改善とツールセットの拡張を備えたバージョン2.0がリリースされました2009年のバージョン3.0では、クラスタリング品質の大幅な向上、APIの簡素化、Eclipse Rich Client Platformに基づくクラスタリングチューニング用の新しいGUIアプリケーションが導入されました。2020年のバージョン4.0.0では、APIのさらなる簡素化、コードのクリーンアップ、デスクトップワークベンチの削除が行われました。バージョン4.1.0では、ワークベンチがWebベースのアプリケーションとして復活しました。
| リリース | リリース日 | 主な変更点と新機能 |
|---|---|---|
| 4.8.0 | 2025年7月 | 依存関係の更新、ビルドシステムの改善。最低限必要なプラットフォームとしてJava 21に切り替えます。 |
| 4.7.0 | 2025年2月 | 依存関係の更新 |
| 4.6.0 | 2024年5月 | 依存関係の更新、ビルドシステムの改善 |
| 4.5.2 | 2023年11月 | 依存関係の更新、ビルドシステムの改善 |
| 4.5.1 | 2023年5月 | 依存関係の更新、軽微なバグ修正 |
| 4.5.0 | 2022年11月 | 依存関係の更新、バグ修正 |
| 4.4.3 | 2022年8月 | 依存関係の更新、STCおよびステミングインフラストラクチャのバグ修正 |
| 4.4.0、4.4.1、4.4.2 | 2021年12月 | セキュリティ修正と依存関係の更新 |
| 4.3.0 | 2021年7月 | APIの軽微な変更とバグ修正。ワークベンチ(DCS検索フロントエンド)の改善。 |
| 4.2.0、4.2.1 | 2021年3月 | JSON辞書とワークベンチの改善。バグ修正。 |
| 4.1.0 | 2021年1月 | Webベースのワークベンチ。JSON辞書と新しいフィルタリングオプション。APIの洗練。 |
| 4.0.0 | 2020年7月 | コードベース全体のAPIの変更と簡素化。非推奨の技術とツールの削除。新しいドキュメントとコードのクリーンアップ。 |
| 3.16.2 | 2019年9月 | サードパーティライブラリの更新(セキュリティ関連の問題)。 |
| 3.16.1 | 2019年1月 | JSビジュアライゼーションの更新。Microsoft Bing API v5からv7への移行。 |
| 3.16.0 | 2018年5月 | Java 9以降の互換性問題の徹底的な見直し。Ubuntuディストリビューション向けのワークベンチ互換性。ドキュメントソースの更新と機能しないドキュメントソースの削除。 |
| 3.15.1 | 2017年3月 | アクセスできない現在の作業ディレクトリで未チェックI/O例外が発生する可能性がある.NETリリースのバグ修正。 |
| 3.15.0 | 2016年10月 | Bing API V2からV5への移行。サードパーティ依存関係のアップグレード。内部の外観。 |
| 3.14.0 | 2016年9月 | ワークベンチの改善(高DPIサポート、MacOSXの改善、バグ修正)。PubMedのHTTPSへの切り替え。その他の軽微な改善。 |
| 3.13.0 | 2016年7月 | サーブレットAPIのバグ修正、ワークベンチのバグ修正、Googleドキュメントソースの削除、いくつかの言語の言語コードの修正。 |
| 3.12.0 | 2016年2月 | Morfologikポーランド語辞書のアップグレード、C2がより厳格なセキュリティマネージャーポリシーの下で動作できるようにインフラストラクチャの変更と調整。 |
| 3.11.0 | 2015年10月 | Apache Luceneのアップグレード、バグ修正、および3.10.xマイナーバージョンからの変更のロールアップ。 |
| 3.10.4 | 2015年10月 | Morfologikライブラリのアップグレード。 |
| 3.10.3 | 2015年8月 | Solrとの競合を回避するため、Google Guavaを再パッケージ化。 |
| 3.10.2 | 2015年7月 | ワークベンチ(アラビア語クラスタ表示)のマイナー修正。 |
| 3.10.1 | 2015年5月 | MacOSディストリビューションからAdunaの視覚化が削除されました。ワークベンチのマイナー修正。 |
| 3.10.0 | 2015年5月 | 視覚化の更新。バグ修正。ライブラリ依存関係の更新。 |
| 3.9.4 | 2014年11月 | FoamTreeの更新。多言語クラスタリング用の新しい属性。視覚化の修正。 |
| 3.9.3 | 2014年7月 | FoamTreeの更新。インフラストラクチャの修正と調整(jflex、sonatypeリポジトリURL)。 |
| 3.9.2 | 2014年4月 | FoamTree HTML5のバグ修正。 |
| 3.9.1 | 2014年4月 | バグ修正、HTML5視覚化のアップグレード。 |
| 3.9.0 | 2014年2月 | FlashをHTML5視覚化に置き換える、ライブラリ依存関係の更新、バグ修正。 |
| 3.8.1 | 2013年10月 | バグ修正、機能のマイナー調整。 |
| 3.8.0 | 2013年7月 | バグ修正、ライブラリ依存関係の更新。 |
| 3.7.1 | 2013年5月 | 軽微なバグ修正(3.7.0メンテナンスリリース) |
| 3.7.0 | 2013年4月 | コアのインフラストラクチャ変更(文字列ID)、Solr統合XSLTの改善、より大きな入力のためのワークベンチの調整、依存関係の更新 |
| 3.6.3 | 2013年4月 | 軽微なバグ修正と改善:SolrアダプタXSLTのカスタマイズ、より大きな入力のためのワークベンチの調整、依存関係の更新 |
| 3.6.2 | 2012年11月 | 軽微なバグ修正と改善 |
| 3.6.1 | 2012年8月 | 軽微なバグ修正 |
| 3.6.0 | 2012年6月 | インフラストラクチャの変更、リファクタリング、バグ修正 |
| 3.5.3 | 2011年12月 | GitHubへの移行に伴うインフラストラクチャの更新。ワークベンチのSWT 3.7.1への更新 |
| 3.5.2 | 2011年9月 | ドキュメントクラスタリングサーバーでのAjaxサポート、Bingドキュメントソースの改善、ワークベンチの改善、バグ修正。 |
| 3.5.1 | 2011年6月 | バグ修正、視覚化統合の改善、Yahoo BOSS APIのサポート削除。 |
| 3.5.0 | 2011年5月 | FoamTree視覚化、二分法k-meansクラスタリング、リソース管理の改善 |
| 3.4.3 | 2011年3月 | Maven中央リポジトリ への配布 |
| 3.4.2 | 2010年10月 | バグ修正 |
| 3.4.1 | 2010年9月 | Solr 1.4.x互換パッケージ、バグ修正 |
| 3.4.0 | 2010年8月 | Carrot²クラスタリングを呼び出すための.NET API |
| 3.3.0 | 2010年4月 | STCクラスタリングアルゴリズムのスケーラビリティの大幅な向上 |
| 3.2.0 | 2010年3月 | アラビア語と韓国語のコンテンツのクラスタリングの実験的サポート、バッチモードでのクラスタリング用のコマンドラインアプリケーション、LGPLライセンスの依存関係の削除 |
| 3.1.0 | 2009年9月 | 中国語コンテンツのクラスタリングの実験的サポート、Apache Solr用の検索結果クラスタリングプラグイン |
| 3.1.0 | 2009年9月 | 中国語コンテンツのクラスタリングの実験的サポート、Apache Solr用の検索結果クラスタリングプラグイン |
| 3.0.1 | 2009年3月 | Mac OS XでDocument Clustering Workbenchが利用可能 |
| 3.0.0 | 2009年1月 | Carrot²クラスタリングを簡単に試すためのドキュメントクラスタリングワークベンチの追加、Java APIの大幅な簡素化、検索結果クラスタリングWebアプリケーションの再実装、ユーザーマニュアル[ 5 ]の提供 |
| 2.1.0 | 2007年8月 | クラスタリングをRESTサービス として公開するためのドキュメントクラスタリングサーバーが追加されました |
| 2.0.0 | 2006年9月 | 検索結果クラスタリングWebアプリケーションの新しいユーザーインターフェース |
| 1.0.0 | 2006年1月 | 最初の公式リリース、バイナリはSourceForgeで入手可能 |
| 0.0.0 | 2002年以降 | インキュベーションリリース、ソースコードはSourceForgeで入手可能 |
アーキテクチャ
[編集]Carrot² 4.0は、主にJavaプログラミングライブラリであり、言語固有のリソースの管理、アルゴリズムの設定と実行のための公開APIを備えています。他の言語との相互運用性のために、HTTP/RESTコンポーネント(ドキュメントクラスタリングサーバー)が提供されています。
クラスタリングアルゴリズム
[編集]Carrot²は、クラスタラベルの品質を重視したいくつかのドキュメントクラスタリングアルゴリズムを提供しています。
スピンオフ
[編集]Carrot Search
[編集]Carrot Searchは、 Carrot²プロジェクトの商業スピンオフであり、 [ 7 ] Carrot²のさらなる開発に取り組んでおり、Carrot²フレームワークに準拠したリアルタイムテキストクラスタリングアルゴリズム[ 8 ]と、オープンソースおよびプロプライエタリソフトウェアに基づくテキストマイニングコンサルティングサービスを提供しています。
Carrot Search Labs
[編集]Carrot²は、Carrot Search Labsの傘下でリリースされた多くの独立したオープンソースプロジェクトを生み出しました。[ 9 ]以下のプロジェクトは、この取り組みの一環として公開されています。
- ランダム化テスト:すべてのテスト実行をわずかに異なる(ランダム化)にするためのユーティリティが組み込まれたJUnitテストランナー。また、負荷分散などの機能を備えた並列JVM上でJUnitテストを実行するためのANTタスクでもあります
- Java用高性能プリミティブコレクション(HPPC):最高のパフォーマンスとメモリ効率を実現するために調整された、Java用のリスト、セット、マップなどのプリミティブコレクション。
- SmartSprites:CSSスプライトの完全自動メンテナンス。スプライト画像を追加または変更する際に、CSSへの面倒なコピー&ペーストは不要です。
廃止されたプロジェクト:
- jSuffixArrays:パフォーマンスとメモリ特性が異なる、Suffix Arrayデータ構造のJava実装。
- JUnitBenchmarks:GCモニタリング、時間変動測定、シンプルなグラフィカルな視覚化を備えた、JUnit4テストをパフォーマンスマイクロベンチマークに変換するための拡張機能セット。
参照
[編集]参考文献
[編集]- ^ Carrot2プロジェクト、Stanislaw Osinski、Dawid Weiss。「Carrot2 - オープンソース検索結果クラスタリングエンジン」
{{cite web}}: CS1 maint: 複数名: 著者リスト (リンク) CS1 maint: 数値名: 著者リスト (リンク) - ^ Carrot 2検索結果クラスタリングデモ
- ^ Dawid Weiss:ポーランド語と英語のウェブ検索結果のためのクラスタリングインターフェース。修士論文。ポズナン工科大学、ポーランド、ポズナン、2001年。PDFをダウンロード
- ^ a b Stanisław Osiński, Dawid Weiss:検索結果のクラスタリングのための概念駆動型アルゴリズム。IEEE Intelligent Systems、2005年5月/6月号、第3巻(第20巻)、48~54ページ
- ^ 「Carrot2」
- ^ オレン・ザミール、オレン・エツィオーニ:「ウェブ文書クラスタリング:実現可能性の実証」、情報検索における研究開発に関する第21回年次国際ACM SIGIR会議議事録(1998年)、46~54ページ
- ^ Carrot Search sc 「Carrot Search:文書クラスタリングおよび視覚化ソフトウェア」
- ^ Carrot Search sc 「Carrot Search:Lingo3G:テキスト文書クラスタリングエンジン」
- ^ Carrot Search sc 「Carrot Search Labs」