カイ二乗自動交互作用検出(CHAID)[1]は、調整有意性検定(ボンフェローニ補正、ホルム・ボンフェローニ検定)に基づく決定木手法である。[2] [3]
歴史
CHAIDは、1960年代と1970年代のAID(自動相互作用検出)[4]とTHAID(THeta自動相互作用検出)[5] [6]手順の正式な拡張に基づいています。これらの手順は、1950年代にイギリスのベルソンによって行われた研究を含む、以前の研究の拡張でした。[7]
CHAID法自体は1975年に南アフリカで開発され、このテーマで博士論文を執筆したゴードン・V・カスによって1980年に発表されました。[2]
初期の教師あり木法の歴史については、 Ritschardの論文で詳しく述べられており、オリジナルのCHAIDアルゴリズムとBiggs、De Ville、Suenによる網羅的なCHAID拡張について説明されている。[3] [1]
データマイニング手法としてCHAID法が使用されました。これは、多元分割に基づいて離散的なグループを作成し、それらが従属変数に与える影響を理解する手法です。CHAID法が分析に選ばれたのは、以下の5つの主要な基準によるものです。
1. 入力データのかなりの割合がカテゴリ型であった。
2. 大規模データセットにおける効率性
3. 非常に視覚的で解釈しやすい
4. CHAIDから生成されたビジネスルールのビジネスへの実装/統合の容易さ。
5. 入力データの品質を効率的に処理できる[8] [9]
プロパティ
CHAIDは予測(回帰分析に似た方法で、このバージョンのCHAIDはもともとXAIDとして知られていました)や分類、変数間の相互作用の検出に使用できます。[4] [5] [6]
実際には、CHAID はダイレクト マーケティングの分野で消費者のグループを選択し、いくつかの変数に対する反応が他の変数にどのように影響するかを予測するために使用されることが多いですが、他の初期の応用は医療や精神医学の研究分野でもありました。[要出典]
他の決定木と同様に、CHAIDの利点は、出力が非常に視覚的で解釈しやすいことです。デフォルトで多元分岐を使用するため、効果的に機能させるには、かなり大きなサンプルサイズが必要になります。サンプルサイズが小さいと、回答者グループがすぐに小さくなりすぎて、信頼性の高い分析ができなくなる可能性があるためです。[要出典]
CHAID が多重回帰などの代替法に比べて重要な利点の 1 つは、非パラメトリックであることです。[引用が必要]
参照
参考文献
- ^ ab Ritschard, Gilbert (2013). 「CHAIDとそれ以前の教師ありツリー法」. 『行動科学における探索的データマイニングの現代的課題』 McArdle, JJ および G. Ritschard (編) . ニューヨーク: Routledge: 48–74 .
- ^ ab Kass, GV (1980). 「大量のカテゴリカルデータを調査するための探索的手法」 .応用統計学. 29 (2): 119– 127. doi :10.2307/2986296. JSTOR 2986296.
- ^ ab Biggs, David; De Ville, Barry; Suen, Ed (1991). 「分類と決定木のための多元パーティション選択法」 . Journal of Applied Statistics . 18 (1): 49– 62. Bibcode :1991JApSt..18...49B. doi :10.1080/02664769100000005. ISSN 0266-4763.
- ^ ab モーガン, ジェームズ・N.; ソンキスト, ジョン・A. (1963). 「調査データ分析における問題点と提案」 .アメリカ統計学会誌. 58 (302): 415– 434. doi :10.1080/01621459.1963.10500855. ISSN 0162-1459.
- ^ ab Messenger, Robert; Mandell, Lewis (1972). 「予測的名義尺度多変量解析のためのモーダルサーチ手法」 . Journal of the American Statistical Association . 67 (340): 768– 772. doi :10.1080/01621459.1972.10481290. ISSN 0162-1459.
- ^ ab Morgan, James N. (1973). THAID, 名義尺度従属変数の分析のための逐次分析プログラム. Robert C. Messenger. ミシガン州アナーバー. ISBN 0-87944-137-2. OCLC 666930。
{{cite book}}: CS1 maint: location missing publisher (link) - ^ ベルソン, ウィリアム A. (1959). 「生物学的分類の原理に基づくマッチングと予測」 .応用統計学. 8 (2): 65– 75. doi :10.2307/2985543. JSTOR 2985543.
- ^ Behera, Desik (2012年11月). 「保険顧客の獲得:CHAIDの方法」. Research Gate . 2025年8月7日閲覧。
- ^ Kotane, Inta (2024年9月). 「穀物産業企業の収益予測におけるCHAID決定木とニューラルネットワーク手法の応用」. Research Gate . doi :10.17770/het2024.28.8264 . 2025年8月7日閲覧。
{{cite web}}: CS1 maint: url-status (link)
参考文献
- プレス、ローレンス・I.; ロジャース、マイルズ・S.; シュア、ジェラルド・H.;多変量データ分析のための対話型手法、行動科学、第14巻(1969年)、pp. 364–370
- ホーキンス、ダグラス・M.、カス、ゴードン・V.、「自動相互作用検出」、ホーキンス、ダグラス・M.(編)、応用多変量解析のトピック、ケンブリッジ大学出版局、ケンブリッジ、1982年、269~302頁
- Hooton, Thomas M.; Haley, Robert W.; Culver, David H.; White, John W.; Morgan, W. Meade; & Carroll, Raymond J.; The Joint Associations of Multiple Risk Factors with the Occurrence of Infections , American Journal of Medicine, Vol. 70, (1981), pp. 960–970
- ブリンク、スザンヌ; ヴァン・シャルクウィク、ダーク・J.;血清フェリチンと平均赤血球容積は骨髄鉄貯蔵量の予測因子である、南アフリカ医学雑誌、第61巻、(1982年)、pp. 432–434
- McKenzie, Dean P.; McGorry, Patrick D.; Wallace, Chris S.; Low, Lee H.; Copolov, David L.; & Singh, Bruce S.;最小限の診断決定木の構築, Methods of Information in Medicine, Vol. 32 (1993), pp. 161–166
- マギドソン、ジェイ;セグメンテーションモデリングへのCHAIDアプローチ:カイ二乗自動相互作用検出、バゴッツィ、リチャードP.(編);マーケティング研究の高度な方法、ブラックウェル、オックスフォード、英国、1994年、pp. 118-159
- ホーキンス、ダグラス・M.; ヤング、SS; ロシンコ、A.;再帰分割法を用いた大規模構造活性データセットの解析、定量的構造活性関係、第16巻、(1997年)、pp. 296–302
外部リンク
- Luchman, JN; CHAID: カイ二乗検定の自動相互作用検出を実行する Stata モジュール。無料でダウンロードできます。または、Stata 内で「ssc install chaid」と入力してください。
- Luchman, JN; CHAIDFOREST: カイ二乗自動相互作用検出 (CHAID) を基本学習者としてランダム フォレスト アンサンブル分類を実行する Stata モジュール。無料でダウンロードできます。または、Stata 内で「ssc install chaidforest」と入力します。
- IBM SPSS Decision Trees は、網羅的な CHAID ツリーのほか、CART などの他のいくつかのタイプのツリーも作成します。
- R パッケージCHAID はR-Forge で入手できます。