データ分析におけるオーバーサンプリングとアンダーサンプリング

統計的サンプリング手法

統計学において、データ分析におけるオーバーサンプリングアンダーサンプリングは、データセットのクラス分布(つまり、表現される異なるクラス/カテゴリ間の比率)を調整するために用いられる手法です。これらの用語は、統計的サンプリング、調査設計手法、そして機械学習の両方で使用されます

オーバーサンプリングとアンダーサンプリングは正反対の手法であり、ほぼ同等の手法です。合成少数派オーバーサンプリング法のようなアルゴリズムを用いて人工的なデータポイントを作成するなど、より複雑なオーバーサンプリング手法も存在します[1] [2]

モチベーション

オーバーサンプリングとアンダーサンプリングはどちらも、データに既に存在する、あるいは純粋にランダムなサンプルを採取した場合に生じる可能性のある不均衡を補正するために、あるクラスから他のクラスよりも多くのサンプルを選択するというバイアスを導入するものです。データの不均衡には、以下の種類があります。

  1. 1つ以上の重要な予測変数において、ある階級が過小代表されていること。性差別の問題に対処するために、例えばコンピュータソフトウェアなどの特定分野の給与に関する調査データがあるとします。ソフトウェアエンジニアの無作為標本において、女性が大幅に過小代表されていることは知られており、これは勤続年数や現在の役職レベルなどの他の変数を調整する際に重要になります。ソフトウェアエンジニアのわずか20%が女性で、つまり男性が女性の4倍いると仮定します。データ収集のための調査を設計する場合、最終的な標本において男女が均等に代表されるように、男性の4倍の女性を調査することになります。(層別サンプリングも参照してください。)
  2. 結果(従属)変数における1つのクラスの過少表現。大規模な臨床データセットから、どの患者が特定の疾患(例えば糖尿病)を発症する可能性が高いかを予測したいとします。ただし、実際にその疾患を発症するのは患者の10%だけだと仮定します。既存の大規模なデータセットがあるとします。その場合、その疾患を発症した患者1人につき、発症しなかった患者の9倍の数を抽出できます。

オーバーサンプリングは、特に詳細なデータがアンケート、インタビューなどによってまだ収集されていない場合に、一般的にアンダーサンプリングよりも頻繁に用いられます。アンダーサンプリングは、はるかに少ない頻度で用いられます。既に収集されているデータの過剰は、「ビッグデータ」時代になって初めて問題となり、アンダーサンプリングを用いる理由は主に実用的であり、リソースコストに関連しています。具体的には、有効な統計的結論を導き出すには十分なサンプルサイズが必要ですが、データを使用する前にクレンジングを行う必要があります。クレンジングには通常、人的要素がかなり含まれ、データセットと分析問題に固有のものであるため、時間と費用がかかります。例えば、

  • ドメインエキスパートは、データセット固有の検証方法を提案します。これには、変数内チェック(許容値、有効な最大値と最小値など)だけでなく、変数間チェックも含まれます。例えば、白血球分画における個々の要素は、それぞれが全体に対する割合であるため、すべて合計が100になる必要があります。
  • 物語テキスト(例:インタビューの記録)に埋め込まれたデータは、統計パッケージや機械学習パッケージが処理できる離散変数に手動でコーディングする必要があります。データ量が増えるほど、コーディング作業は増加します。(コーディングはソフトウェアで行える場合もありますが、多くの場合、誰かがカスタムの単発プログラムを作成し、偽陽性と偽陰性の結果の観点からプログラムの出力の精度をテストする必要があります。)

これらの理由から、通常は、統計的に妥当な信頼性で質問に答えるために必要な量のデータのみをクレンジングしますが (サンプル サイズを参照)、それ以上のデータはクレンジングしません。

オーバーサンプリング技術

ランダムオーバーサンプリング

ランダムオーバーサンプリングでは、少数派クラスのサンプルを複数回コピーしてトレーニングデータを補完します。オーバーサンプリングは複数回(2倍、3倍、5倍、10倍など)行うことができます。これは最も初期に提案された手法の一つであり、堅牢性も実証されています。[3]少数派クラスのすべてのサンプルを複製する代わりに、一部のサンプルをランダムに選択して復元抽出することも可能です。

スモート

典型的な分類問題(ラベル付けされた画像トレーニングセットを与えられた画像セットを分類アルゴリズムを用いて分類する)で使用されるデータセットをオーバーサンプリングする方法は数多く存在します。最も一般的な手法はSMOTE(Synthetic Minority Over-sampling Technique)です。[4]しかし、この手法ではキャリブレーションが不十分なモデルが生成され、少数派クラスに属する確率が過大評価されることが示されています。[5]

この手法の仕組みを説明するために、データの特徴空間にs個のサンプルとf個の特徴を持つトレーニング データを考えてみましょう。これらの特徴は、説明を簡潔にするために連続していることに注意してください。例として、分類用の鳥のデータセットを考えてみましょう。オーバーサンプリングする少数クラスの特徴空間は、くちばしの長さ、翼幅、重量(すべて連続)とすることができます。次にオーバーサンプリングするには、データセットからサンプルを 1 つ取り出し、そのk 個の最近傍点(特徴空間内)を検討します。合成データポイントを作成するには、これらのk個の近傍点の 1 つと現在のデータ ポイント間のベクトルを取ります。このベクトルに 0 から 1 の間の乱数xを掛けます。これを現在のデータ ポイントに加えて、新しい合成データ ポイントを作成します。

SMOTE法は提案されて以来、多くの修正と拡張が行われてきました。[6]

アダシン

適応型合成サンプリングアプローチ(ADASYNアルゴリズム)[7]は、SMOTEの手法を基盤とし、分類境界の重要性を学習困難な少数クラスにシフトさせます。ADASYNは、学習の難易度に応じて、異なる少数クラスの例に重み付け分布を適用します。これにより、学習が困難な少数クラスの例に対して、より多くの合成データが生成されます。

増強

データ分析におけるデータ拡張とは、既存のデータに若干手を加えたコピー、または既存のデータから新たに作成した合成データを追加することで、データ量を増やす手法です。これは正規化子として機能し、機械学習モデルの学習時に過学習を軽減するのに役立ちます。 [8] (参照:データ拡張

アンダーサンプリング技術

ランダムアンダーサンプリング

多数派クラスからランダムにサンプルを除外する(置換あり、またはなし)。これはデータセットの不均衡を軽減するために用いられる最も初期の手法の一つであるが、分類器の分散を増加させる可能性があり、有用なサンプルや重要なサンプルが破棄される可能性が非常に高い。[6]アンダーサンプリングが有効な条件に関する統計的分析については、[9]を参照のこと。

クラスタ

クラスター セントロイドは、サンプルのクラスターを K 平均アルゴリズムのクラスター セントロイドに置き換える方法です。クラスターの数は、アンダーサンプリングのレベルによって設定されます。

トメックリンクは、クラス間の不要な重複を削除します。この重複では、最小距離にある最近傍ペアがすべて同じクラスになるまで、多数派クラスのリンクが削除されます。トメックリンクは次のように定義されます。インスタンスペア (の間の距離)が与えられたとき、またはとなるインスタンスが存在しない場合に、そのペアはトメックリンクと呼ばれます。このように、2つのインスタンスがトメックリンクを形成する場合、これらのインスタンスのいずれかがノイズであるか、両方が境界付近にあります。したがって、トメックリンクを使用してクラス間の重複をクリーンアップできます。重複する例を削除することで、トレーニングセット内に明確に定義されたクラスターを確立し、分類パフォーマンスを向上させることができます。[10] × × j {\displaystyle (x_{i},x_{j})} × S × j S 最大 {\displaystyle x_{i}\in S_{\min},x_{j}\in S_{\operatorname {max} }} d × × j {\displaystyle d(x_{i},x_{j})} × {\displaystyle x_{i}} × j {\displaystyle x_{j}} × × j {\displaystyle (x_{i},x_{j})} × {\displaystyle x_{k}} d × × < d × × j {\displaystyle d(x_{i},x_{k})<d(x_{i},x_{j})} d × j × < d × × j {\displaystyle d(x_{j},x_{k})<d(x_{i},x_{j})}

アンサンブル学習によるアンダーサンプリング

最近の研究では、アンダーサンプリングとアンサンブル学習を組み合わせることでより良い結果が得られることが示されています。IFME:デジタルライブラリ環境におけるアンダーサンプリングによる複数の例による情報フィルタリングを参照してください。[11]

回帰問題に対するテクニック

サンプリング技術は主に分類タスクのために開発されてきたが、不均衡回帰の問題への注目が高まっている。[12]アンダーサンプリング、オーバーサンプリング、SMOTEなど、一般的な戦略の適応が利用可能である。[13] [14]サンプリング技術は、時系列予測[15]や時空間予測[16]など、依存性指向データの数値予測の文脈でも研究されてきた。

追加のテクニック

オーバーサンプリングとアンダーサンプリングの手法を組み合わせたハイブリッド戦略も可能です。一般的な例としては、SMOTEとTomekリンク、またはSMOTEと編集近傍法(ENN)が挙げられます。不均衡なデータセットでの学習方法としては、訓練インスタンスの重み付け、正例と負例に異なる誤分類コストの導入、ブートストラップ法などがあります。[17]

実装

  • scikit-learn Pythonライブラリと互換性のあるimbalanced-learnパッケージ[1]には、様々なデータ再サンプリング手法が実装されています。再サンプリング手法は、多数派クラスのアンダーサンプリング、少数派クラスのオーバーサンプリング、オーバーサンプリングとアンダーサンプリングの組み合わせ、そしてアンサンブルサンプリングの4つの異なるカテゴリーに分類されます。
  • モデル選択関数を備えた85種類の少数オーバーサンプリング手法のPython実装は、smote-variants [2]パッケージで入手できます。

批判

[バイナリ分類]設定における貧弱なモデルは、多くの場合、決定論的分類器の適合、トレーニングデータ内のクラス頻度のバランスをとるための再サンプリングまたは再重み付け手法の使用、精度などのスコアによるモデルの評価、これらの組み合わせの結果です。...まれなクラスを含む少数のケースから、魔法のようにより多くの情報を生成する再サンプリング手法はありません。

— 機械学習と保険数理実務における一貫性のあるスコアリング関数のためのモデル比較とキャリブレーション評価ユーザーガイド、Tobias Fissler、arXiv:2202.12780v3、Christian Lorentzen、Michael Mayer、2023

条件付き分布ベイズの定理を通じて)をモデル化しようとする確率的機械学習モデルは、アンダーサンプリングやダウンサンプリングを適用してトレーニング中に自然分布を変更すると、誤ったキャリブレーションが行われる。 [18] P はい | X P X | はい P はい P X {\displaystyle P(Y|X)={\frac {P(X|Y)P(Y)}{P(X)}}} P はい {\displaystyle P(Y)}

この点は簡単な例で説明できます。予測変数がなく、 の割合が0.01、 の割合が0.99であると仮定します。学習したモデルは役に立たず、アンダーサンプリングまたはオーバーサンプリングによって修正する必要があるのでしょうか?答えは「いいえ」です。クラスの不均衡自体は全く問題ではありません。 X {\displaystyle X} はい 1 {\displaystyle Y=1} はい 0 {\displaystyle Y=0} P ^ はい 1 0.01 {\displaystyle {\hat {P}}(Y=1)=0.01}

さらに、

  1. オーバーサンプリング
  2. アンダーサンプリング
  3. サンプルに重みを割り当てる

多クラス分類やコスト構造が非常に不均衡な状況において、実務家はこれを適用することができる。これは、各クラスで「望ましい」最良の性能(各クラスにおける適合率と再現率として測定される可能性がある)を達成するために行われる可能性がある。しかし、最良の多クラス分類性能、あるいは適合率と再現率の間の最良のトレードオフを見つけることは、本質的に多目的最適化問題である。これらの問題には通常、比較できない複数のパレート最適解が存在することはよく知られている。オーバーサンプリングやアンダーサンプリング、そしてサンプルへの重み付けは、特定のパレート最適解を見つけるための暗黙的な方法である(そして推定確率の較正を犠牲にする)。オーバーサンプリングやダウンサンプリングよりも明示的な方法は、パレート最適解を次のように 選択することである。

参照

文学

  • Kubat, M. (2000). 不均衡な訓練セットの呪いへの対処:片側選択. 第14回国際機械学習会議.
  • Chawla, Nitesh V. (2010) 不均衡なデータセットのデータマイニング:概要doi :10.1007/978-0-387-09823-4_45 In: Maimon, Oded; Rokach, Lior (Eds)データマイニングと知識発見ハンドブック、Springer ISBN 978-0-387-09823-4(875~886ページ)
  • Lemaître, G. Nogueira, F. Aridas, Ch.K. (2017) Imbalanced-learn: 機械学習における不均衡なデータセットの呪いを解決する Python ツールボックス、Journal of Machine Learning Research、vol. 18、no. 17、2017 年、pp. 1–5。

参考文献

  1. ^ ab "Scikit-learn-contrib/Imbalanced-learn". GitHub . 2021年10月25日.
  2. ^ ab "Analyticalmindsltd/Smote_variants". GitHub . 2021年10月26日.
  3. ^ Ling, Charles X., Chenghui Li. 「ダイレクトマーケティングのためのデータマイニング:問題と解決策」Kdd . 第98巻. 1998年.
  4. ^ Chawla, NV; Bowyer, KW; Hall, LO; Kegelmeyer, WP (2002-06-01). 「SMOTE: 合成少数派オーバーサンプリング手法」. Journal of Artificial Intelligence Research . 16 : 321–357 . arXiv : 1106.1813 . doi :10.1613/jair.953. ISSN  1076-9757. S2CID  1554582.
  5. ^ van den Goorbergh, Ruben; van Smeden, Maarten; Timmerman, Dirk; Van Calster, Ben (2022-09-01). 「リスク予測モデルにおけるクラス不均衡補正の弊害:ロジスティック回帰を用いた例証とシミュレーション」. Journal of the American Medical Informatics Association . 29 (9): 1525– 1534. doi :10.1093/jamia/ocac093. ISSN  1527-974X. PMC 9382395. PMID 35686364  . 
  6. ^ ab Chawla, Nitesh V.; Herrera, Francisco; Garcia, Salvador; Fernandez, Alberto (2018-04-20). 「不均衡データからの学習のためのSMOTE:15周年を迎えての進歩と課題」. Journal of Artificial Intelligence Research . 61 : 863–905 . doi : 10.1613/jair.1.11192 . hdl : 10481/56411 . ISSN  1076-9757.
  7. ^ He, Haibo; Bai, Yang; Garcia, Edwardo A.; Li, Shutao (2008年6月). 「ADASYN: 不均衡学習のための適応型合成サンプリングアプローチ」(PDF) . 2008 IEEE International Joint Conference on Neural Networks (IEEE World Congress on Computational Intelligence) . pp.  1322– 1328. doi :10.1109/IJCNN.2008.4633969. ISBN 978-1-4244-1820-6. S2CID  1438164 . 2022年12月5日閲覧。
  8. ^ Shorten, Connor; Khoshgoftaar, Taghi M. (2019). 「ディープラーニングのための画像データ拡張に関する調査」. Mathematics and Computers in Simulation . 6 60. springer. doi : 10.1186/s40537-019-0197-0 .
  9. ^ Dal Pozzolo, Andrea; Caelen, Olivier; Bontempi, Gianluca (2015-01-01). 「不均衡な分類タスクにおいて、アンダーサンプリングが効果的なのはいつなのか?」 . 『データベースにおける機械学習と知識発見』 . ECML PKDD 2015. Springer. doi :10.1007/978-3-319-23528-8_13.
  10. ^ Batista, Gustavo EAPA; Prati, Ronaldo C.; Monard, Maria Carolina (2004-06-01). 「機械学習トレーニングデータのバランスをとるためのいくつかの手法の挙動に関する研究」 . SIGKDD Explor. Newsl . 6 (1): 20– 29. doi :10.1145/1007730.1007735. ISSN  1931-0145.
  11. ^ Zhu, Mingzhu; Xu, Chao; Wu, Yi-Fang Brook (2013-07-22). IFME: デジタルライブラリ環境におけるアンダーサンプリングを用いた複数例による情報フィルタリング. ACM. pp.  107– 110. doi :10.1145/2467696.2467736. ISBN 9781450320771. S2CID  13279787。
  12. ^ Ribeiro, Rita P.; Moniz, Nuno (2020-09-01). 「不均衡回帰と極値予測」.機械学習. 109 (9): 1803– 1835. doi : 10.1007/s10994-020-05900-9 . ISSN  1573-0565. S2CID  222143074.
  13. ^ トルゴ、ルイス;ブランコ、ポーラ。リベイロ、リタ P.ファーリンガー、ベルンハルト(2015 年 6 月)。 「回帰のためのリサンプリング戦略」。エキスパートシステム32 (3): 465–476 .土井:10.1111/exsy.12081。S2CID  205129966。
  14. ^ トルゴ、ルイス;リベイロ、リタ P.ファーリンガー、ベルンハルト。ブランコ、ポーラ (2013)。 「回帰のための SMOTE」。コヘイア、ルイス。レイス、ルイス・パウロ。カスカリョ、ホセ (編)。人工知能の進歩。コンピューターサイエンスの講義ノート。 Vol. 8154. ベルリン、ハイデルベルク: Springer。 pp.  378–389土井:10.1007/978-3-642-40669-0_33。hdl : 10289/8518ISBN 978-3-642-40669-0. S2CID  16253787。
  15. ^ Moniz, Nuno; Branco, Paula; Torgo, Luís (2017-05-01). 「不均衡な時系列予測のためのリサンプリング戦略」. International Journal of Data Science and Analytics . 3 (3): 161– 181. doi : 10.1007/s41060-017-0044-3 . ISSN  2364-4168. S2CID  25975914.
  16. ^ マリアナ、オリベイラ;モニス、ヌーノ。トルゴ、ルイス。サントス・コスタ、ヴィトル(2021-09-01)。「不均衡な時空間予測のための偏ったリサンプリング戦略」データサイエンスと分析の国際ジャーナル12 (3): 205–228土井:10.1007/s41060-021-00256-2。ISSN  2364-4168。S2CID  210931099。
  17. ^ Haibo He; Garcia, EA (2009). 「不均衡なデータからの学習」. IEEE Transactions on Knowledge and Data Engineering . 21 (9): 1263– 1284. Bibcode :2009ITKDE..21.1263H. doi :10.1109/TKDE.2008.239. S2CID  206742563.
  18. ^ 「不均衡補正は、アウトカムイベントの有無を区別する能力が向上しないまま、大きな誤較正を伴うモデルをもたらした。不正確な確率推定は、治療に関する決定が十分な情報に基づかなくなるため、モデルの臨床的有用性を低下させる。」リスク予測モデルにおけるクラス不均衡補正の弊害:ロジスティック回帰を用いた図解とシミュレーション、2022年、Ruben van den Goorbergh、Maarten van Smeden、Dirk Timmerman、Ben Van Calster https://doi.org/10.1093/jamia/ocac093
  19. ^ 機械学習百科事典 (2011). ドイツ: シュプリンガー. 193ページ, https://books.google.com/books?id=i8hQhp1a62UC&pg=PT193
  20. ^ Elor, Yotam; Averbuch-Elor, Hadar (2022). 「SMOTEすべきか、すべきでないか?」arXiv : 2201.08528v3 [cs.LG].
  21. ^ Guillaume Lemaitre EuroSciPy 2023 - scikit-learn 分類器を最大限に活用する https://www.youtube.com/watch?v=6YnhoCfArQo
Retrieved from "https://en.wikipedia.org/w/index.php?title=Oversampling_and_undersampling_in_data_analysis&oldid=1332684284"