| キャットブースト | |
|---|---|
![]() | |
| 原作者 | アンドレイ・グリン:[ 1 ] / Yandex |
| 開発者 | YandexとCatBoostの貢献者[ 2 ] |
| 初回リリース | 2017年7月18日[ 3 ] [ 4 ] ( 2017-07-18 ) |
| 安定版リリース | 1.2.8 [ 5 ] / 2025年4月13日 (2025年4月13日) |
| 書かれた | Python、R、C++、Java |
| オペレーティング·システム | Linux、macOS、Windows |
| タイプ | 機械学習 |
| ライセンス | Apacheライセンス2.0 |
| Webサイト | キャットブースト |
CatBoost [ 6 ]はYandexが開発したオープンソースのソフトウェアライブラリです。勾配ブースティングフレームワークを提供しており、その機能の中でも、古典的なアルゴリズムに代わる順列駆動型のアルゴリズムを用いてカテゴリカル特徴量を解こうとします。[ 7 ] Linux、Windows、macOSで動作し、 Python、[ 8 ] R、[ 9 ]で利用できます。 また、CatBoostを使用して構築されたモデルは、C++、Java、[ 10 ] C#、Rust、Core ML、ONNX、PMMLでの予測に使用できます。ソースコードはApache Licenseの下でライセンスされており、GitHubで入手できます。[ 6 ]
InfoWorld誌は、2017年にこのライブラリを「最高の機械学習ツール」に選出しました。 [ 11 ] TensorFlow、 Pytorch、 XGBoost、その他8つのライブラリ とともに
Kaggleは、CatBoostを世界で最も頻繁に利用されている機械学習(ML)フレームワークの1つとして挙げています。2020年の調査では最も頻繁に利用されているMLフレームワークのトップ8にランクインし[ 12 ]、2021年の調査では最も頻繁に利用されているMLフレームワークのトップ7にランクインしました[ 13 ] 。
2022年4月現在、CatBoostはPyPIリポジトリから1日あたり約10万回インストールされています[ 14 ]
CatBoostは、主に以下の特徴により、他の勾配ブースティングアルゴリズムと比較して人気を博しています[ 15 ]
2009年、アンドレイ・グーリンは独自の勾配ブースティングライブラリであるMatrixNetを開発しました。これはYandexの検索結果のランキング付けに使用されていました。2009年以降、MatrixNetはYandexの様々なプロジェクトで使用されており、レコメンデーションシステムや天気予報などがその例です。
2014年から2015年にかけて、アンドレイ・グーリンは研究者チームと共同で、Tensornetと呼ばれる新しいプロジェクトを立ち上げました。このプロジェクトは、「カテゴリカルデータの扱い方」という問題の解決を目指していました。彼らの研究の結果、カテゴリカルデータの処理に異なるアプローチを採用した、複数の独自の勾配ブースティングライブラリが誕生しました。
2016年、Anna Dorogush率いる機械学習インフラストラクチャチームは、MatrixnetとTensornetを含むYandexにおける勾配ブースティングの取り組みを開始しました。彼らは、カテゴリカルデータとテキストデータ、GPUトレーニング、モデル分析、可視化ツールをサポートする、勾配ブースティングライブラリの次期バージョン「CatBoost」を実装し、オープンソース化しました。
CatBoost は 2017 年 7 月にオープンソース化され、Yandex とオープンソース コミュニティで活発に開発されています。