データマイニングのための業界標準プロセス

CRISP-DMとして知られるデータマイニングのための業界標準プロセス[ 1 ]は、データマイニングの専門家が用いる一般的なアプローチを記述したオープンスタンダードのプロセスモデルであり、最も広く用いられている分析モデルです。[ 2 ]

2015年にIBMはCRISP-DMを改良・拡張した Analytics Solutions Unified Method for Data Mining/Predictive Analytics [ 3 ] [ 4 ] (ASUM-DMとも呼ばれる)という新しい方法論をリリースしました。

歴史

CRISP-DM は 1996 年に構想され、 1997 年にESPRIT資金提供イニシアチブの下で欧州連合プロジェクトとなりました。このプロジェクトは、Integral Solutions Ltd (ISL)TeradataDaimler AGNCR Corporation、保険会社のOHRA の5 社によって主導されました。

この中核コンソーシアムは、プロジェクトに様々な経験をもたらしました。ISLは後に買収され、SPSSに統合されました。コンピュータ大手のNCRコーポレーションは、Teradataデータウェアハウスと独自のデータマイニングソフトウェアを開発しました。ダイムラー・ベンツには大規模なデータマイニングチームがありました。OHRAはデータマイニングの潜在的な活用方法を模索し始めていました。

この方法論の最初のバージョンは、1999年3月にブリュッセルで開催された第4回CRISP-DM SIGワークショップで発表され、[ 5 ]その年の後半にステップバイステップのデータマイニングガイドとして出版されました。[ 6 ]

2006年から2008年にかけて、CRISP-DM 2.0 SIGが結成され、CRISP-DMプロセスモデルの更新に関する議論が行われました。[ 7 ]これらの取り組みの現状は不明です。ただし、レビューで引用されている元のcrisp-dm.orgウェブサイト[ 8 ] [ 9 ]とCRISP-DM 2.0 SIGウェブサイトは、どちらも現在は閉鎖されています。[ 7 ]

IBM以外のデータマイニング実践者もCRISP-DMを使用していますが、[ 10 ] [ 11 ] [ 12 ]、現在CRISP-DMプロセスモデルを使用している主な企業はIBMです。IBMは、古いCRISP-DMドキュメントの一部をダウンロード可能にし、 SPSS Modeler製品に組み込んでいます。[ 6 ]

最新の研究に基づくと、CRISP-DMは、データマイニング業界における既存の問題を解決する様々な利点を有するため、最も広く利用されているデータマイニングモデルです。このモデルの欠点としては、プロジェクトマネジメント活動が考慮されていないことが挙げられます。CRISP-DMの成功は、業種、ツール、アプリケーションに依存しないという点に大きく起因しています。[ 13 ]

主要なフェーズ

CRISP-DMのさまざまなフェーズ間の関係を示すプロセス図

CRISP-DMはデータマイニングのプロセスを6つの主要なフェーズに分割します。[ 14 ]

  • ビジネス理解
  • データの理解
  • データ準備
  • モデリング
  • 評価
  • 展開

各フェーズの順序は厳密ではなく、通常は異なるフェーズ間を行き来する必要があります。プロセス図の矢印は、フェーズ間の最も重要かつ頻繁な依存関係を示しています。図の外側の円は、データマイニング自体の循環的な性質を象徴しています。データマイニングプロセスは、ソリューションの導入後も継続されます。プロセス中に得られた教訓は、新たな、そして多くの場合より焦点を絞ったビジネス上の疑問を生み出すきっかけとなり、その後のデータマイニングプロセスは、以前のプロセスの経験から恩恵を受けることになります。

世論調査と代替プロセスフレームワーク

同じウェブサイト(KDNuggets)で2002年、2004年、2007年、2014年に実施された世論調査では、調査に回答した業界のデータマイナーがCRISP-DMを最も多く使用した手法であることが示されています。[ 10 ] [ 11 ] [ 12 ] [ 15 ]これらの世論調査で挙げられた他のデータマイニング手法はSEMMAのみでした。しかし、SAS InstituteはSEMMAはデータマイニング手法ではなく、「SAS Enterprise Minerの機能ツールセットの論理的な構成」であると明確に述べています。2009年のデータマイニングプロセスモデルのレビューと批評では、CRISP-DMは「データマイニングと知識発見プロジェクトの開発における事実上の標準」と呼ばれています。[ 16 ] CRISP-DMとデータマイニングプロセスモデルに関するその他のレビューとしては、KurganとMusilekによる2006年のレビュー、[ 8 ]およびAzevedoとSantosによる2008年のCRISP-DMとSEMMAの比較[ 9 ]などがある。この方法論を更新する取り組みは2006年に始まりましたが、2015年6月現在、新しいバージョンはリリースされておらず、責任を負っていた「Special Interest Group」(SIG)とそのウェブサイトは長い間姿を消している(CRISP-DMの歴史を参照)。

2024年、ハーバード・ビジネス・レビューは、ビジネス担当者との関連性を高め、一般的な分析データサイエンスデータマイニングプロジェクトではなく、特に機械学習プロジェクトに特化するように設計された更新されたフレームワークbizMLを公開しました。[ 17 ]

参考文献

  1. ^ Shearer C.、「CRISP-DMモデル:データマイニングの新しい青写真」、J Data Warehousing (2000); 5:13—22。
  2. ^データマイニングプロセスについてIT部門が知っておくべきことForbes、2015年7月29日発行、2018年6月24日閲覧
  3. ^ ASUM-DMをご覧になりましたか?、Jason Haffar著、2015年10月16日、SPSS Predictive Analytics、IBM、 Wayback Machineで2016年3月8日にアーカイブ
  4. ^ Analytics Solutions Unified Method - Agile 原則による実装IBM 発行、2016年3月1日、2018年10月5日閲覧
  5. ^ Pete Chapman (1999); CRISP-DM ユーザー ガイド
  6. ^ a b Pete Chapman、Julian Clinton、Randy Kerber、Thomas Khabaza、Thomas Reinartz、Colin Shearer、およびRüdiger Wirth (2000); The CRISP-DM User Guide ( semantic scholarのエントリ、PDFへのリンクを含む)、(高解像度グラフィックのPDFバージョンは2020年9月12日にWayback Machineアーカイブ)。
  7. ^ a bコリン・シアラー (2006);第1回CRISP-DM 2.0ワークショップ開催
  8. ^ a b Lukasz KurganとPetr Musilek (2006); 「知識発見とデータマイニングのプロセスモデルに関する調査」『知識工学レビュー』第21巻第1号、2006年3月、pp 1–24、ケンブリッジ大学出版局、ニューヨーク、NY、米国 doi: 10.1017/S0269888906000737。
  9. ^ a b Azevedo, A. および Santos, MF (2008); KDD、SEMMA、CRISP-DM:並列概要。IADIS European Conference on Data Mining 2008 の議事録、182~185ページ。
  10. ^ a bグレゴリー・ピアテツキー=シャピロ (2002); KDnuggets Methodology Poll
  11. ^ a bグレゴリー・ピアテツキー=シャピロ (2004); KDnuggets方法論調査
  12. ^ a bグレゴリー・ピアテツキー=シャピロ (2007); KDnuggets Methodology Poll
  13. ^ Mariscal, G., Marban, O., Fernandez, C. (2010). 「データマイニングと知識発見プロセスのモデルと方法論に関する調査」. The Knowledge Engineering Review . 25 (2): 137– 166. doi : 10.1017/S0269888910000032 . S2CID  31359633 .{{cite journal}}: CS1 maint: 複数の名前: 著者リスト (リンク)
  14. ^ Harper, Gavin; Stephen D. Pickett (2006年8月). 「HTSデータのマイニング方法」 . Drug Discovery Today . 11 ( 15–16 ): 694–699 . doi : 10.1016/j.drudis.2006.06.006 . PMID 16846796 . 
  15. ^グレゴリー・ピアテツキー=シャピロ (2014); KDnuggets 方法論調査
  16. ^マルティネス・プルームド、フェルナンド;コントレラス・オチャンド、リディア;フェリ、セザール。フラッハ、ピーター。ヘルナンデス・オラロ、ホセ。カル、ミーリス。ラシシュ、ニコラ。ラミレス=キンタナ、マリア・ホセ(2017年9月19日)。 「CASP-DM: データマイニングのためのコンテキスト認識型標準プロセス」。arXiv : 1709.09003 [ cs.DB ]。
  17. ^エリック・シーゲル (2024);機械学習プロジェクトのアイデアから実行まで