| シリーズの一部 |
| 機械学習とデータマイニング |
|---|
データマイニングは、機械学習、統計、データベースシステムの交差点にある手法を伴う、膨大なデータセットからパターンを抽出して発見するプロセスです。[ 1 ]データマイニングは、データセットから(インテリジェントな手法を用いて)情報を抽出し、その情報を理解可能な構造に変換してさらに利用することを全体的な目標とする、コンピュータサイエンスと統計の学際的なサブフィールドです。 [ 1 ] [ 2 ] [ 3 ] [ 4 ]データマイニングは、「データベースにおける知識発見」プロセス(KDD)の分析ステップです。[ 5 ]生の分析ステップとは別に、データベースとデータ管理の側面、データの前処理、モデルと推論の考慮、興味深さの指標、複雑さの考慮、発見された構造の後処理、視覚化、オンライン更新も含まれます。[ 1 ]
「データマイニング」という用語は誤称です。なぜなら、その目的は大量のデータからパターンや知識を抽出することであり、データそのものの抽出(マイニング)ではないからです。[ 6 ]これは流行語でもあり[ 7 ]、あらゆる形態の大規模データや情報処理(収集、抽出、保管、分析、統計)だけでなく、人工知能(機械学習など)やビジネスインテリジェンスを含むコンピューター意思決定支援システムのあらゆるアプリケーションにも頻繁に適用されています。多くの場合、より一般的な用語である(大規模)データ分析やアナリティクス、あるいは実際の手法を指す場合は人工知能や機械学習の方が適切です。
実際のデータ マイニング タスクは、大量のデータを半自動または自動で分析して、データ レコードのグループ (クラスター分析)、異常なレコード (異常検出)、依存関係(関連ルール マイニング、シーケンシャル パターン マイニング) など、これまで知られていなかった興味深いパターンを抽出することです。これには通常、空間インデックスなどのデータベース手法が使用されます。これらのパターンは、入力データの一種の要約として見ることができ、さらに分析したり、たとえば機械学習や予測分析に使用したりできます。たとえば、データ マイニングの手順でデータ内の複数のグループを識別すると、それを使用して意思決定支援システムがより正確な予測結果を得ることができます。データ収集、データ準備、結果の解釈とレポートは、データ マイニングの手順の一部ではありませんが、追加の手順として全体的な KDD プロセスに属しています。
データ分析とデータマイニングの違いは、データ分析はデータセット(例えば、マーケティングキャンペーンの効果分析など)を用いてモデルや仮説を検証するために使用される点です。データ量に関わらず、データマイニングは機械学習と統計モデルを用いて、大量のデータに潜む隠れたパターンを発見します。[ 8 ]
関連用語であるデータ・ドレッジング、データ・フィッシング、データ・スヌーピングは、データマイニング手法を用いて、大規模な母集団データセットから、発見されたパターンの妥当性について信頼性の高い統計的推論を行うには小さすぎる(または小さすぎる可能性がある)部分をサンプリングすることを指します。しかし、これらの手法は、より大きなデータ母集団に対して検証するための新たな仮説を作成する際に使用できます。
1960年代、統計学者や経済学者は、事前の仮説なしにデータを分析するという悪質な手法を指して、 「データフィッシング」や「データドレッジング」といった用語を用いていました。経済学者マイケル・ラヴェルは、1983年に『 Review of Economic Studies』誌に掲載された論文の中で、 「データマイニング」という用語を同様に批判的に用いました。 [ 9 ] [ 10 ]ラヴェルは、この手法が「『実験』(肯定的な意味合い)から『フィッシング』や『スヌーピング』(否定的な意味合い)まで、様々な別名で偽装されている」と指摘しています。
データマイニングという用語は、1990年頃にデータベースコミュニティに登場し、概ね肯定的な意味合いを持っていました。1980年代には短期間、「データベースマイニング™」という用語が使用されていましたが、サンディエゴに拠点を置くHNC社が自社のデータベースマイニングワークステーションの宣伝にこの用語を商標登録したため、 [ 11 ]、研究者たちはデータマイニングへと転向しました。その他の用語としては、データアーキオロジー、情報ハーベスティング、情報発見、知識抽出などがあります。グレゴリー・ピアテツキー=シャピロは、同じテーマに関する最初のワークショップ(KDD-1989)で「データベースにおける知識発見」という用語を作り出し、[ 12 ]、この用語はAIおよび機械学習コミュニティでより一般的になりました。しかし、ビジネス界や報道界では、データマイニングという用語がより一般的に使用されるようになりました。[ 13 ]現在、データマイニングと知識発見という用語は同じ意味で使用されています。
データからパターンを手作業で抽出する手法は、何世紀にもわたって行われてきました。データ内のパターンを識別する初期の手法としては、ベイズの定理(1700年代)や回帰分析(1800年代)などが挙げられます。[ 14 ]コンピュータ技術の普及、遍在性、そして性能向上により、データの収集、保存、操作能力は劇的に向上しました。データセットの規模と複雑さが増すにつれ、直接的な「手作業」によるデータ分析は、コンピュータサイエンス、特に機械学習分野におけるニューラルネットワーク、クラスター分析、遺伝的アルゴリズム(1950年代)、決定木と決定ルール(1960年代)、サポートベクターマシン(1990年代)といった他の発見に支えられ、間接的な自動データ処理によってますます強化されてきました。データマイニングとは、これらの手法を適用し、大規模なデータセットに隠れたパターンを発見するプロセスです。[ 15 ]これは、データベース内でのデータの保存方法やインデックス作成方法を活用して実際の学習および発見アルゴリズムをより効率的に実行することにより、応用統計学や人工知能(通常は数学的な背景を提供)からデータベース管理へのギャップを埋め、そのような方法をこれまで以上に大規模なデータセットに適用できるようにします。
データベースにおける知識発見 (KDD) プロセスは、通常、次の段階で定義されます。
ただし、このテーマにはさまざまなバリエーションがあり、たとえば、 6 つのフェーズを定義する業界標準データ マイニング プロセス(CRISP-DM) などがあります。
または、(1)前処理、(2)データマイニング、(3)結果の検証などの簡略化されたプロセス。
2002年、2004年、2007年、2014年に実施された世論調査では、CRISP-DM手法がデータマイナーが使用する主要な手法であることが示されています。[ 16 ] [ 17 ] [ 18 ] [ 19 ]
これらの調査で挙げられた他のデータマイニング標準はSEMMAのみでした。しかし、CRISP-DMを使用していると回答した人は、SEMMAの3~4倍に上りました。複数の研究チームがデータマイニングプロセスモデルのレビューを発表しており[ 20 ] 、AzevedoとSantosは2008年にCRISP-DMとSEMMAの比較調査を実施しました[ 21 ]。
データマイニングアルゴリズムを使用する前に、ターゲットデータセットを構築する必要があります。データマイニングはデータ内に実際に存在するパターンのみを発見できるため、ターゲットデータセットはこれらのパターンを包含できる十分な大きさでありながら、許容可能な時間制限内でマイニングできるほど簡潔である必要があります。一般的なデータソースは、データマートまたはデータウェアハウスです。データマイニングの前に、多変量データセットを分析するための前処理が不可欠です。次に、ターゲットデータセットをクリーニングします。データクリーニングでは、ノイズを含む観測値や欠損データのある観測値が除去されます。
データマイニングには6つの一般的なタスククラスが含まれます。[ 5 ]

データマイニングは意図せず誤用される可能性があり、一見有意な結果に見えるものの、実際には将来の行動を予測しておらず、新しいデータサンプルでは再現できないため、ほとんど役に立たない結果を生み出すことがあります。これは、あまりにも多くの仮説を調査し、適切な統計的仮説検定を実施しないことによって引き起こされることがあります。機械学習におけるこの問題の単純なバージョンは過学習として知られていますが、同じ問題がプロセスの異なる段階で発生する可能性があり、そのため、トレーニングとテストの分割(適用可能な場合)だけでは、この問題を防ぐのに十分ではない可能性があります。[ 22 ]
データからの知識発見の最終段階は、データマイニングアルゴリズムによって生成されたパターンがより広範なデータセットに出現することを確認することです。アルゴリズムによって発見されたすべてのパターンが必ずしも有効であるとは限りません。データマイニングアルゴリズムは、一般的なデータセットには存在しないパターンをトレーニングセット内に発見することがよくあります。これは過学習と呼ばれます。これを克服するために、評価では、データマイニングアルゴリズムがトレーニングされていないテストデータセットを使用します。学習されたパターンをこのテストデータセットに適用し、得られた出力を目的の出力と比較します。例えば、「スパム」メールと「正当な」メールを区別しようとするデータマイニングアルゴリズムは、サンプルメールのトレーニングセットでトレーニングされます。トレーニングが完了したら、学習されたパターンを、トレーニングされていないテストデータセットに適用します。パターンの精度は、正しく分類されたメールの数から測定できます。アルゴリズムの評価には、ROC曲線などのいくつかの統計的手法を使用できます。
学習したパターンが望ましい基準を満たさない場合は、前処理とデータマイニングの手順を再評価し、変更する必要があります。学習したパターンが望ましい基準を満たしている場合は、最終段階で学習したパターンを解釈し、知識に変換します。
この分野における主要な専門団体は、米国計算機協会(ACM)の知識発見とデータマイニングに関する特別利益団体(SIG)(SIGKDD)である。[ 23 ] [ 24 ] ACM SIGは1989年以来、毎年国際会議を開催し、その議事録を出版している。[ 25 ]また、1999年からは「SIGKDD Explorations」という2年ごとの学術誌を刊行している。 [ 26 ]
データマイニングに関するコンピュータサイエンス会議には次のようなものがあります。
データ マイニングのトピックは、ICDE カンファレンス、SIGMOD カンファレンス、International Conference on Very Large Data Bases などの多くのデータ管理/データベース カンファレンスでも取り上げられています。
データマイニングプロセスの標準を定義する取り組みはいくつか行われてきました。例えば、1999年の欧州データマイニング業界標準プロセス(CRISP-DM 1.0)や2004年のJavaデータマイニング標準(JDM 1.0)などが挙げられます。これらのプロセスの後継となるCRISP-DM 2.0およびJDM 2.0の開発は2006年には活発でしたが、その後停滞しています。JDM 2.0は最終草案に至ることなく撤回されました。
抽出されたモデルを交換するための、特に予測分析での使用において重要な標準規格は、予測モデルマークアップ言語(PMML)です。これは、データマイニンググループ(DMG)によって開発されたXMLベースの言語であり、多くのデータマイニングアプリケーションで交換フォーマットとしてサポートされています。その名称が示すように、PMMLは予測モデルという、ビジネスアプリケーションにとって非常に重要な特定のデータマイニングタスクのみをカバーしています。しかしながら、 DMGとは独立して、例えばサブスペースクラスタリングなどをカバーするための拡張が提案されています。 [ 27 ]
データマイニングは、デジタルデータが利用可能なあらゆる場所で利用されます。データマイニングの顕著な例は、ビジネス、医療、科学、金融、建設、監視など多岐にわたります。
「データマイニング」という用語自体には倫理的な意味合いはないかもしれませんが、ユーザーの行動(倫理的なものもそうでないものも)に関連した情報のマイニングと関連付けられることがよくあります。[ 28 ]
データマイニングの使用方法によっては、場合によってはプライバシー、合法性、倫理性に関する疑問が生じる可能性があります。[ 29 ]特に、Total Information Awareness ProgramやADVISEなど、国家安全保障や法執行の目的で政府や商業データセットをデータマイニングすることは、プライバシーに関する懸念を引き起こしています。[ 30 ] [ 31 ]
データマイニングには、機密保持義務やプライバシー義務に違反する情報やパターンを発見するためのデータ準備が必要です。これは、一般的にデータ集約によって行われます。データ集約とは、分析を容易にする方法(ただし、個人レベルのプライベートなデータの識別が推測可能になったり、その他の方法で明らかになったりする可能性もあります)で、データ(場合によってはさまざまなソースから)を組み合わせることです。[ 32 ]個人のプライバシーに対する脅威は、データが一度コンパイルされると、データマイナー、または新しくコンパイルされたデータセットにアクセスできる誰かが特定の個人を識別できるようになる場合、特にデータが元々匿名であった場合に発生します。[ 33 ]
データは匿名化されるように変更されることもあり、その場合、個人は容易に特定されなくなる可能性がある。[ 32 ]しかし、「匿名化された」データセットであっても、個人を特定できる十分な情報が含まれている可能性がある。これは、ジャーナリストがAOLによって不注意に公開された一連の検索履歴に基づいて複数の個人を見つけることができた事例で明らかになった。[ 34 ]
個人情報の不注意な開示は、プロバイダーに繋がる公正情報慣行に違反します。この不注意は、対象者に金銭的、精神的、または身体的損害を与える可能性があります。プライバシー侵害の一例として、ウォルグリーンの顧客が2011年に同社を提訴しました。同社は処方箋情報をデータマイニング企業に販売し、その企業がそのデータを製薬会社に提供したとして訴訟を起こしました。[ 35 ]
欧州ではプライバシー法が比較的厳格であり、消費者の権利をさらに強化するための取り組みが進められています。しかしながら、 1998年から2000年にかけて策定された米国・EUセーフハーバー原則は、現在、欧州のユーザーを米国企業によるプライバシー搾取の危険にさらしています。エドワード・スノーデンによる世界的な監視活動の暴露を受けて、この協定の撤回を求める議論が高まっています。特に、データが国家安全保障局(NSA)に完全に公開されることになるためです。米国との合意に向けた試みは失敗に終わりました。[ 36 ]
特に英国では、企業がデータマイニングを利用して特定の顧客層をターゲットにし、不当に高い価格を支払わせる事例が発生しています。こうした顧客層は、社会経済的地位の低い層である傾向があり、デジタル市場で自分たちが搾取される可能性があることを知りません。[ 37 ]
米国では、プライバシーに関する懸念は、米国議会が医療保険の携行性と責任に関する法律(HIPAA)などの規制を可決することで対処してきました。HIPAAは、個人が提供する情報とその現在および将来の利用目的について、「インフォームド・コンセント」を与えることを義務付けています。Biotech Business Week誌の記事によると、「実際には、HIPAAは研究分野における長年の規制よりも優れた保護を提供していない可能性がある」とAAHCは述べています。さらに重要なのは、インフォームド・コンセントによる保護というこの規則の目標が、一般の人々には理解できないレベルに近づいているということです。」[ 38 ]これは、データ集約およびマイニングの実践においてデータの匿名性が必要であることを強調しています。
HIPAA(医療保険の携行性と責任に関する法律)や家族教育の権利とプライバシー法(FERPA)といった米国の情報プライバシー法は、それぞれの法律が対象とする特定の分野にのみ適用されます。米国企業の大多数によるデータマイニングの利用は、いかなる法律によっても規制されていません。
データセットに著作権がない場合でも、欧州連合はデータベース権を認めているため、データマイニングはデータベース指令によって保護されている知的財産権者の権利の対象となります。欧州の著作権データベース法では、著作権者の許可なく著作権のある作品(ウェブマイニングなど)をマイニングすることは、2019年のデジタル単一市場における著作権に関する指令の第3条と第4条で認められています。科学研究のための特定のTDM例外は第3条に記載されていますが、第4条に記載されているより一般的な例外は、著作権者がオプトアウトしていない場合にのみ適用されます。
欧州委員会は2013年に「欧州のライセンス」と題して、テキストマイニングとデータマイニングに関する利害関係者の議論を促進した。[ 39 ]この法的問題の解決策として、制限や例外ではなくライセンス供与に焦点が当てられたため、大学、研究者、図書館、市民社会団体、オープンアクセス出版社の代表者は2013年5月に利害関係者の対話から離脱した。[ 40 ]
ハーグリーブス報告書の勧告を受けて、英国政府は2014年に著作権法を改正し、コンテンツマイニングを制限および例外として認めることになった。[ 41 ]英国は、2009年にデータマイニングの例外を導入した日本に次いで、世界で2番目に著作権法を改正した国である。しかし、情報社会指令(2001年)の制限により、英国の例外は非営利目的のコンテンツマイニングのみを認めている。また、英国の著作権法では、この規定を契約条件で上書きすることは認められていない。
スイスも2020年以降、スイス著作権法第24条dに定められた一定の条件の下で研究分野におけるデータマイニングを許可することで、データマイニングを規制しています。この新しい条項は2020年4月1日に発効しました。[ 42 ]
米国著作権法、特にフェアユースに関する規定は、米国およびイスラエル、台湾、韓国などのフェアユース諸国におけるコンテンツマイニングの合法性を支持している。コンテンツマイニングは変形的であり、つまり元の作品に取って代わるものではないため、フェアユースの下では合法とみなされている。例えば、Googleブックス和解の一環として、同事件の裁判長は、Googleによる著作権のある書籍のデジタル化プロジェクトは合法であるとの判決を下したが、その理由の一つは、デジタル化プロジェクトが示す変形的利用(テキストマイニングとデータマイニング)である。[ 43 ]
以下のアプリケーションは、フリー/オープンソースライセンスの下で利用可能です。アプリケーションのソースコードへの一般公開も可能です。
以下のアプリケーションは、独自のライセンスに基づいて利用できます。
データから情報を抽出する方法(データの分析とは対照的) の詳細については、以下を参照してください。
したがって、データマイニングは「データからの知識マイニング」というより適切な名前であるべきだったが、残念ながらそれは少々長すぎる。
2015年10月6日、
CJEUは
…現行のセーフハーバーを無効とする判決を下した(即時発効)。