セマ

SEMMAは、 Sample(サンプリング) Explore(探索) Modify(修正) 、 Model(モデル化) 、 Assess(評価)の頭文字をとったものです。統計およびビジネスインテリジェンスソフトウェアの最大手メーカーの一つであるSAS Instituteによって開発された、一連の手順のリストです。データマイニングアプリケーションの実装をガイドします。 [ 1 ] SEMMAは一般的なデータマイニング手法とみなされることが多いですが、SASは「むしろ、自社製品の一つであるSAS Enterprise Minerの機能ツールセットを論理的に体系化し、データマイニングの中核タスクを実行するためのもの」であると主張しています。 [ 2 ]

背景

拡大を続けるデータマイニング分野では、多様かつ反復的なデータマイニングプロセスのための標準的な方法論、あるいは業界を問わずユーザーがデータマイニングプロジェクトに適用できるシンプルなベストプラクティスリストが求められています。欧州情報技術研究戦略プログラム(ESRI)が設立したCRISP-DM(Cross Industry Standard Process for Data Mining )は、中立的な方法論の構築を目指していましたが、SASもまた、自社のデータマイニングツールで採用できるパターンを提供しました。

SEMMAのフェーズ

SEMMAのフェーズと関連タスクは以下のとおりです。[ 2 ]

  • サンプリング。このプロセスは、データサンプリング、つまりモデリングのためのデータセットの選択から始まります。データセットは、取得するのに十分な情報を含むのに十分な大きさでありながら、効率的に使用できる程度に小さくなければなりません。このフェーズでは、データの分割も行われます。
  • 探索。このフェーズでは、データの視覚化を活用して、変数間の予想される関係や予想外の関係、さらには異常を発見することで、データを理解します。
  • 変更。変更フェーズには、データ モデリングの準備として変数を選択、作成、変換するためのメソッドが含まれています。
  • モデル化。モデル化フェーズでは、準備された変数にさまざまなモデリング(データマイニング)手法を適用して、望ましい結果をもたらす可能性のあるモデルを作成することに重点が置かれます。
  • 評価。最後のフェーズは「評価」です。モデリング結果の評価により、作成されたモデルの信頼性と有用性が示されます。

批判

SEMMAは、データマイニング・プロジェクトのモデリング作業に主に焦点を当てており、ビジネス面は考慮されていません(例えば、CRISP-DMとそのビジネス理解フェーズとは異なります)。さらに、SEMMAはSAS Enterprise Minerソフトウェアのユーザーを支援するために設計されています。そのため、Enterprise Miner以外への適用は曖昧になる可能性があります。[ 3 ] しかし、SEMMAの「サンプリング」フェーズを完了するには、効果的なサンプリングを行うために、ビジネス面への深い理解が必須となります。つまり、サンプリングを効果的に完了するには、ビジネス理解が不可欠となるのです。[ 4 ]

参照

参考文献

  1. ^ Azevedo, A. および Santos, MF KDD, SEMMA and CRISP-DM: a parallel overview . IADIS European Conference on Data Mining 2008 Proceedings, pp 182-185.アーカイブ済み(2013年1月9日、Wayback Machine)
  2. ^ a b SAS Enterprise Minerウェブサイト 2012年3月8日アーカイブ、 Wayback Machine
  3. ^ Rohanizadeh, SSおよびMoghadam, MB「提案されたデータマイニング手法と産業手順へのその応用」 Journal of Industrial Engineering 4 (2009) pp 37-50。
  4. ^ [1] KDD、SEMMA、CRISP-DM:並列概要、アナ・アゼベドとMFサントス