統計分類

コンピュータによって 分類が実行される場合、通常、アルゴリズムの開発には統計的手法が使用されます。

多くの場合、個々の観測値は、説明変数または特徴量と呼ばれる定量化可能な特性の集合へと分析されます。これらの特性は、カテゴリ(例:血液型の場合、「A」、「B」、「AB」、「O」)、順序(例:「大きい」、「中」、「小さい」)、整数値(例:電子メールにおける特定の単語の出現回数)、実数値(例:血圧の測定値)など、様々な値をとります。他の分類器は、類似度関数または距離関数を用いて観測値と過去の観測値を比較することで機能します。

分類を実装するアルゴリズム、特に具体的な実装においては、分類器と呼ばれます。「分類器」という用語は、分類アルゴリズムによって実装され、入力データをカテゴリにマッピングする数学関数を指すこともあります

分野によって用語は多種多様です。統計学では、分類はロジスティック回帰や類似の手法を用いて行われることが多く、観測値のプロパティは説明変数(または独立変数、回帰変数など)と呼ばれ、予測されるカテゴリは結果と呼ばれ、従属変数の可能な値として考えられます。機械学習では、観測値はインスタンス、説明変数は特徴特徴ベクトルにグループ化される)と呼ばれ、予測される可能性のあるカテゴリはクラスと呼ばれます。他の分野では異なる用語が使用される場合があります。例えば、群集生態学では、「分類」という用語は通常、クラスター分析を指します。

他の問題との関係

分類とクラスタリングは、パターン認識というより一般的な問題の例です。パターン認識とは、与えられた入力値に何らかの出力値を割り当てることです。その他の例としては、各入力に実数値の出力を割り当てる回帰、値のシーケンスの各メンバーにクラスを割り当てるシーケンスラベリング(例えば、入力文の各単語に品詞を割り当てる品詞タグ付け) 、入力文に構文木を割り当てて文の 統語構造を記述する構文解析などがあります。

分類の一般的なサブクラスとして、確率的分類があります。この種のアルゴリズムは、統計的推論を用いて、与えられたインスタンスに最適なクラスを見つけます。単に「最適な」クラスを出力する他のアルゴリズムとは異なり、確率的アルゴリズムは、インスタンスが各クラスのメンバーである確率を出力します。通常、最適なクラスは最も高い確率を持つクラスとして選択されます。しかし、このようなアルゴリズムには、非確率的分類器に比べて多くの利点があります。

  • 選択に関連付けられた信頼値を出力できます (一般に、これを実行できる分類器は、信頼度重み付け分類器と呼ばれます)。
  • 同様に、特定の出力を選択することに対する信頼度が低すぎる場合には、その出力を控えることもできます。
  • 生成される確率により、確率分類器は、エラー伝播の問題を部分的または完全に回避しながら、より大規模な機械学習タスクに効果的に組み込むことができます。

頻度主義的手順

統計的分類に関する初期の研究はフィッシャー[ 1 ] [ 2 ]により2グループ問題の文脈で行われ、新しい観測にグループ割り当てる規則としてフィッシャーの線形判別関数が導き出されました。 [ 3 ]この初期の研究では、2つのグループのそれぞれにおけるデータ値は多変量正規分布に従うと仮定されました。この同じ文脈を2つ以上のグループに拡張することも検討されましたが、分類規則は線形でなければならないという制限が課されました。[ 3 ] [ 4 ]多変量正規分布に関するその後の研究では、分類器を非線形にすることが可能になりました。[ 5 ]マハラノビス距離の異なる調整に基づいて複数の分類規則を導出することができ、新しい観測は、その観測から調整された距離が最も小さいグループに割り当てられます。

ベイズ法

頻度主義的な手順とは異なり、ベイズ分類の手順は、全体の母集団内の異なるグループの相対的なサイズに関する利用可能な情報を考慮に入れる自然な方法を提供します。[ 6 ]ベイズ手順は計算コストが高くなる傾向があり、マルコフ連鎖モンテカルロ計算が開発される前には、ベイズクラスタリングルールの近似が考案されました。[ 7 ]

一部のベイズ手順では、グループメンバーシップ確率の計算が行われます 。これにより、新しい観測ごとに単一のグループラベルを単純に帰属させるよりも有益な結果が得られます。

バイナリ分類とマルチクラス分類

分類は、 2クラス分類多クラス分類という2つの別々の問題として考えることができます。より理解しやすいタスクである2クラス分類では、2つのクラスのみが扱われますが、多クラス分類では、オブジェクトを複数のクラスのいずれかに割り当てます。[ 8 ]多くの分類手法は2クラス分類専用に開発されているため、多クラス分類では複数の2クラス分類器を組み合わせて使用​​する必要があることがよくあります。

特徴ベクトル

ほとんどのアルゴリズムは、個々のインスタンスを記述し、そのインスタンスの個々の測定可能なプロパティの特徴ベクトルを使用して、そのカテゴリを予測します。各プロパティは特徴と呼ばれ、統計学では説明変数(または独立変数、ただし特徴は統計的に独立している場合とそうでない場合があります)とも呼ばれます。特徴には、バイナリ(例:「オン」または「オフ」)、カテゴリ(例:血液型で「A」、「B」、「AB」、「O」)、順序(例:「大きい」、「中」、「小さい」)、整数値(例:電子メール内での特定の単語の出現回数)、実数値(例:血圧の測定値)などがあります。インスタンスが画像の場合、特徴値は画像のピクセルに対応する可能性があります。インスタンスがテキストの場合、特徴値はさまざまな単語の出現頻度に対応する可能性があります。一部のアルゴリズムは離散データに対してのみ機能し、実数値または整数値のデータをグループ(5 未満、5 から 10 の間、または 10 より大きいなど)に 離散化する必要があります。

線形分類器

分類アルゴリズムの多くは、インスタンスの特徴ベクトルと重みベクトルをドット積で組み合わせることで、カテゴリkにスコアを割り当てる線形関数として表現できます。予測されるカテゴリは、スコアが最も高いカテゴリです。このタイプのスコア関数は線形予測関数と呼ばれ、次の一般的な形式になります。 ここで、X iはインスタンスiの特徴ベクトル、β kはカテゴリkに対応する重みベクトル、 score( X i , k ) はインスタンスi をカテゴリkに割り当てることに関連付けられたスコアです。離散選択理論では、インスタンスは人、カテゴリは選択肢を表し、スコアは人i がカテゴリkを選択することに関連付けられた効用と見なされます。 スコアXβX{\displaystyle \operatorname {スコア} (\mathbf {X} _{i},k)={\boldsymbol {\beta }}_{k}\cdot \mathbf {X} _{i},}

この基本的な設定を持つアルゴリズムは線形分類器と呼ばれます。これらのアルゴリズムを区別する特徴は、最適な重み/係数を決定(トレーニング)する手順と、スコアの解釈方法です。

このようなアルゴリズムの例としては、

アルゴリズム

すべてのデータセットに適した単一の分類形式は存在しないため、大規模な分類アルゴリズムのツールキットが開発されている。最も一般的に使用されるものは以下の通りである[ 9 ]。

さまざまな可能なアルゴリズムの選択は、精度の定量的な評価に基づいて行われることが多い。

アプリケーションドメイン

分類には多くの用途があります。その中には、データマイニングの手法として用いられるものもあれば、より詳細な統計モデリングに用いられるものもあります。

参照

参考文献

  1. ^フィッシャー, RA (1936). 「分類学的問題における多重測定の利用」Annals of Eugenics . 7 (2): 179– 188. doi : 10.1111/j.1469-1809.1936.tb02137.x . hdl : 2440/15227 .
  2. ^フィッシャー, RA (1938). 「多重測定の統計的利用」Annals of Eugenics . 8 (4): 376– 386. doi : 10.1111/j.1469-1809.1938.tb02189.x . hdl : 2440/15232 .
  3. ^ a b Gnanadesikan, R. (1977)多変量観測の統計データ分析法、Wiley. ISBN 0-471-30845-5(83~86ページ)
  4. ^ Rao, CR (1952)『多変量解析における高度な統計手法』 Wiley. (セクション9c)
  5. ^アンダーソン、TW(1958)多変量統計分析入門、Wiley。
  6. ^ Binder, DA (1978). 「ベイズクラスター分析」. Biometrika . 65 : 31–38 . doi : 10.1093/biomet/65.1.31 .
  7. ^ Binder, David A. (1981). 「ベイズクラスタリングルールの近似」. Biometrika . 68 : 275–285 . doi : 10.1093/biomet/68.1.275 .
  8. ^ Har-Peled, S. , Roth, D., Zimak, D. (2003)「多クラス分類とランキングのための制約分類」 Becker, B., Thrun, S. , Obermayer, K. (編)『ニューラル情報処理システムの進歩 15: 2002年会議議事録』 MIT Press ISBN 0-262-02550-7
  9. ^ 「機械学習初心者のためのトップ10アルゴリズム解説」 Built In . 2018年1月20日. 2019年6月10日閲覧