インスタンスの選択

インスタンス選択（またはデータセット削減、データセット凝縮）は、多くの機械学習（またはデータマイニング）タスクに適用できる重要なデータ前処理ステップです。 ^[1]インスタンス選択のアプローチは、元のデータセットを管理可能な量に削減するために適用でき、学習プロセスの実行に必要な計算リソースを削減します。インスタンス選択アルゴリズムは、学習アルゴリズムを適用する前にノイズの多いインスタンスを除去するためにも適用できます。このステップにより、分類問題における精度を向上させることができます。

インスタンス選択アルゴリズムは、データマイニング（または機械学習）アプリケーションの本来の目的を達成するために、利用可能なデータ全体から特定のサブセットを特定する必要があります。これにより、あたかもすべてのデータが使用されたかのように動作します。これを考慮すると、インスタンス選択の最適な結果は、利用可能なデータ全体を使用してタスクを実行した場合と比較して、パフォーマンスの低下なしに同じタスクを実行できる最小限のデータサブセットになります。したがって、すべてのインスタンス選択戦略は、データセットの削減率と分類品質の間のトレードオフを考慮する必要があります。

インスタンス選択アルゴリズム

文献には、インスタンス選択のための数種類の異なるアルゴリズムが記載されています。これらは、いくつかの異なる基準に従って互いに区別できます。これを考慮すると、インスタンス選択アルゴリズムは、選択するインスタンスに応じて、クラスの境界でインスタンスを保持するアルゴリズムとクラスの内部インスタンスを保持するアルゴリズムの2つの主要なクラスに分類できます。境界でインスタンスを選択するアルゴリズムのカテゴリでは、DROP3、^[2]、 ICF ^{[3] 、およびLSBo}^[4]を挙げることができます。一方、内部インスタンスを選択するアルゴリズムのカテゴリでは、ENN ^[5]やLSSm^[4]を挙げることができます。一般に、ENNやLSSmなどのアルゴリズムは、データセットから有害な（ノイズの多い）インスタンスを除去するために使用されます。境界インスタンスを選択するアルゴリズムのようにデータを削減するのではなく、データマイニングタスクに悪影響を与える境界のインスタンスを除去します。これらは、フィルタリングステップとして、他のインスタンス選択アルゴリズムで使用できます。たとえば、DROP3 では最初のステップとして ENN アルゴリズムが使用され、LSBo では LSSm アルゴリズムが使用されます。

異なる選択基準を採用するアルゴリズムのグループも存在します。例えば、LDIS ^[6] 、 CDIS ^[7]、XLDIS ^[8]といったアルゴリズムは、任意の近傍から最も密なインスタンスを選択します。選択されるインスタンスには、境界インスタンスと内部インスタンスの両方が含まれます。LDISとCDISのアルゴリズムは非常にシンプルで、元のデータセットを非常に代表するサブセットを選択します。さらに、各クラスの代表インスタンスを個別に検索するため、DROP3やICFなどの他のアルゴリズムよりも高速です（時間計算量と実効実行時間の点で）。

さらに、データセットの実際のインスタンスを選択する代わりに、プロトタイプ（合成インスタンスでもよい）を選択するアルゴリズムの3番目のカテゴリがあります。このカテゴリには、PSSA ^[9] 、 PSDSP ^[10]、PSSP ^[11]などが含まれます。これら3つのアルゴリズムは、類似インスタンスを識別するために空間分割（超長方形）の概念を採用し、類似インスタンスの各セットからプロトタイプを抽出します。一般に、これらのアプローチはデータセットの実際のインスタンスを選択するためにも変更できます。アルゴリズムISDSP ^[11]は、プロトタイプではなく実際のインスタンスを選択するために同様のアプローチを採用しています。

参考文献

^ S. García、J. Luengo、F. Herrera、「データマイニングにおけるデータ前処理」、Springer、2015年。
^ DR WilsonとTR Martinez、「インスタンスベース学習アルゴリズムの削減手法」、機械学習、第38巻、第3号、pp.257–286、2000年。
^ H. BrightonとC. Mellish、「インスタンスベース学習アルゴリズムにおけるインスタンス選択の進歩」、データマイニングと知識発見、第6巻第2号、153～172頁、2002年。
^ ab E. Leyva、A. González、R. Pérez、「ローカルセットに基づく3つの新しいインスタンス選択方法：2目的の観点からのいくつかのアプローチとの比較研究」、Pattern Recognition、vol. 48、no. 4、pp. 1523–1537、2015年。
^ DL Wilson、「編集されたデータを使用した最近傍ルールの漸近的特性」、システム、人間、サイバネティクス、IEEE Transactions on、第3号、pp.408–421、1972年。
^ Carbonera、Joel Luis、Mara Abel. インスタンス選択のための密度ベースアプローチ。IEEE第27回人工知能ツール国際会議（ICTAI）、2015年。
^ Carbonera、Joel Luis、Mara Abel. インスタンス選択のための新しい密度ベースのアプローチ。IEEE第28回人工知能ツール国際会議（ICTAI）、2016年。
^ Carbonera, Joel Luís (2017)、「インスタンス選択のための効率的なアプローチ」、Big Data Analytics and Knowledge Discovery、Lecture Notes in Computer Science、vol. 10440、Springer International Publishing、pp. 228– 243、doi :10.1007/978-3-319-64283-3_17、ISBN 9783319642826
^ Carbonera, Joel Luís; Abel, Mara (2018)、「空間抽象化に基づく効率的なプロトタイプ選択アルゴリズム」、Big Data Analytics and Knowledge Discovery、Springer International Publishing、pp. 177– 192、doi :10.1007/978-3-319-98539-8_14、ISBN 9783319985381
^ Carbonera, Joel Luís; Abel, Mara (2018)、「高密度空間パーティションに基づく効率的なプロトタイプ選択アルゴリズム」、人工知能とソフトコンピューティング、Springer International Publishing、pp. 288– 300、doi :10.1007/978-3-319-91262-2_26、ISBN 9783319912615
^ ab Carbonera, Joel Luis; Abel, Mara (2017年11月). 「部分空間分割による効率的なプロトタイプ選択」. 2017 IEEE 第29回人工知能ツール国際会議 (ICTAI) . IEEE. pp. 921– 928. doi :10.1109/ictai.2017.00142. ISBN 9781538638767. S2CID 46955571。

[GARCIA_2015-1] S. García、J. Luengo、F. Herrera、「データマイニングにおけるデータ前処理」、Springer、2015年。

[DROP_2000-2] DR WilsonとTR Martinez、「インスタンスベース学習アルゴリズムの削減手法」、機械学習、第38巻、第3号、pp.257–286、2000年。

[ICF_2002-3] H. BrightonとC. Mellish、「インスタンスベース学習アルゴリズムにおけるインスタンス選択の進歩」、データマイニングと知識発見、第6巻第2号、153～172頁、2002年。

[LSBo_LSSm_2015-4] E. Leyva、A. González、R. Pérez、「ローカルセットに基づく3つの新しいインスタンス選択方法：2目的の観点からのいくつかのアプローチとの比較研究」、Pattern Recognition、vol. 48、no. 4、pp. 1523–1537、2015年。

[ENN_1972-5] DL Wilson、「編集されたデータを使用した最近傍ルールの漸近的特性」、システム、人間、サイバネティクス、IEEE Transactions on、第3号、pp.408–421、1972年。

[LDIS_2015-6] Carbonera、Joel Luis、Mara Abel. インスタンス選択のための密度ベースアプローチ。IEEE第27回人工知能ツール国際会議（ICTAI）、2015年。

[CDIS_2016-7] Carbonera、Joel Luis、Mara Abel. インスタンス選択のための新しい密度ベースのアプローチ。IEEE第28回人工知能ツール国際会議（ICTAI）、2016年。

[8] Carbonera, Joel Luís (2017)、「インスタンス選択のための効率的なアプローチ」、Big Data Analytics and Knowledge Discovery、Lecture Notes in Computer Science、vol. 10440、Springer International Publishing、pp. 228– 243、doi :10.1007/978-3-319-64283-3_17、ISBN 9783319642826

[9] Carbonera, Joel Luís; Abel, Mara (2018)、「空間抽象化に基づく効率的なプロトタイプ選択アルゴリズム」、Big Data Analytics and Knowledge Discovery、Springer International Publishing、pp. 177– 192、doi :10.1007/978-3-319-98539-8_14、ISBN 9783319985381

[10] Carbonera, Joel Luís; Abel, Mara (2018)、「高密度空間パーティションに基づく効率的なプロトタイプ選択アルゴリズム」、人工知能とソフトコンピューティング、Springer International Publishing、pp. 288– 300、doi :10.1007/978-3-319-91262-2_26、ISBN 9783319912615

[Carbonera-11] Carbonera, Joel Luis; Abel, Mara (2017年11月). 「部分空間分割による効率的なプロトタイプ選択」. 2017 IEEE 第29回人工知能ツール国際会議 (ICTAI) . IEEE. pp. 921– 928. doi :10.1109/ictai.2017.00142. ISBN 9781538638767. S2CID 46955571。