データマイニング

データマイニングは、機械学習統計データベースシステムの交差点にある手法を伴う、膨大なデータセットからパターンを抽出して発見するプロセスです。[ 1 ]データマイニングは、データセットから(インテリジェントな手法を用いて)情報を抽出し、その情報を理解可能な構造に変換してさらに利用することを全体的な目標とする、コンピュータサイエンスと統計の学際的なサブフィールドです。 [ 1 ] [ 2 ] [ 3 ] [ 4 ]データマイニングは、「データベースにおける知識発見」プロセス(KDD)の分析ステップです。[ 5 ]生の分析ステップとは別に、データベースとデータ管理の側面、データの前処理モデル推論の考慮、興味深さの指標、複雑さの考慮、発見された構造の後処理、視覚化オンライン更新も含まれます。[ 1 ]

「データマイニング」という用語は誤称です。なぜなら、その目的は大量のデータからパターンや知識を抽出することであり、データそのものの抽出(マイニング)ではないからです。[ 6 ]これは流行語でもあり[ 7 ]、あらゆる形態の大規模データや情報処理収集抽出保管、分析、統計)だけでなく、人工知能(機械学習など)やビジネスインテリジェンスを含むコンピューター意思決定支援システムのあらゆるアプリケーションにも頻繁に適用されています。多くの場合、より一般的な用語である(大規模データ分析アナリティクス、あるいは実際の手法を指す場合は人工知能機械学習の方が適切です。

実際のデータ マイニング タスクは、大量のデータを半自動または自動で分析して、データ レコードのグループ (クラスター分析)、異常なレコード (異常検出)、依存関係(関連ルール マイニングシーケンシャル パターン マイニング) など、これまで知られていなかった興味深いパターンを抽出することです。これには通常、空間インデックスなどのデータベース手法が使用されます。これらのパターンは、入力データの一種の要約として見ることができ、さらに分析したり、たとえば機械学習や予測分析に使用したりできます。たとえば、データ マイニングの手順でデータ内の複数のグループを識別すると、それを使用して意思決定支援システムがより正確な予測結果を得ることができます。データ収集、データ準備、結果の解釈とレポートは、データ マイニングの手順の一部ではありませんが、追加の手順として全体的な KDD プロセスに属しています。

データ分析とデータマイニングの違いは、データ分析はデータセット(例えば、マーケティングキャンペーンの効果分析など)を用いてモデルや仮説を検証するために使用される点です。データ量に関わらず、データマイニングは機械学習と統計モデルを用いて、大量のデータに潜む隠れたパターンを発見します。[ 8 ]

関連用語であるデータ・ドレッジングデータ・フィッシングデータ・スヌーピングは、データマイニング手法を用いて、大規模な母集団データセットから、発見されたパターンの妥当性について信頼性の高い統計的推論を行うには小さすぎる(または小さすぎる可能性がある)部分をサンプリングすることを指します。しかし、これらの手法は、より大きなデータ母集団に対して検証するための新たな仮説を作成する際に使用できます。

語源

1960年代、統計学者や経済学者は、事前の仮説なしにデータを分析するという悪質な手法を指して、 「データフィッシング」や「データドレッジング」といった用語を用いていました。経済学者マイケル・ラヴェルは、1983年に『 Review of Economic Studies』誌に掲載された論文の中で、 「データマイニング」という用語を同様に批判的に用いました。 [ 9 ] [ 10 ]ラヴェルは、この手法が「『実験』(肯定的な意味合い)から『フィッシング』や『スヌーピング』(否定的な意味合い)まで、様々な別名で偽装されている」と指摘しています。

データマイニングという用語は、1990年頃にデータベースコミュニティに登場し、概ね肯定的な意味合いを持っていました。1980年代には短期間、「データベースマイニング™」という用語が使用されていましたが、サンディエゴに拠点を置くHNC社が自社のデータベースマイニングワークステーションの宣伝にこの用語を商標登録したため、 [ 11 ]、研究者たちはデータマイニングへと転向しました。その他の用語としては、データアーキオロジー情報ハーベスティング情報発見知識抽出などがあります。グレゴリー・ピアテツキー=シャピロは、同じテーマに関する最初のワークショップ(KDD-1989)で「データベースにおける知識発見」という用語を作り出し、[ 12 ]、この用語はAIおよび機械学習コミュニティでより一般的になりました。しかし、ビジネス界や報道界では、データマイニングという用語がより一般的に使用されるようになりました。[ 13 ]現在、データマイニング知識発見という用語は同じ意味で使用されています。

背景

データからパターンを手作業で抽出する手法は、何世紀にもわたって行われてきました。データ内のパターンを識別する初期の手法としては、ベイズの定理(1700年代)や回帰分析(1800年代)などが挙げられます。[ 14 ]コンピュータ技術の普及、遍在性、そして性能向上により、データの収集、保存、操作能力は劇的に向上しました。データセットの規模と複雑さが増すにつれ、直接的な「手作業」によるデータ分析は、コンピュータサイエンス、特に機械学習分野におけるニューラルネットワーククラスター分析遺伝的アルゴリズム(1950年代)、決定木決定ルール(1960年代)、サポートベクターマシン(1990年代)といった他の発見に支えられ、間接的な自動データ処理によってますます強化されてきました。データマイニングとは、これらの手法を適用し、大規模なデータセットに隠れたパターンを発見するプロセスです。[ 15 ]これは、データベース内でのデータの保存方法やインデックス作成方法を活用して実際の学習および発見アルゴリズムをより効率的に実行することにより、応用統計学や人工知能(通常は数学的な背景を提供)からデータベース管理へのギャップを埋め、そのような方法をこれまで以上に大規模なデータセットに適用できるようにします。

プロセス

データベースにおける知識発見 (KDD) プロセスは、通常、次の段階で定義されます。

  1. 選択
  2. 前処理
  3. 変換
  4. データマイニング
  5. 解釈・評価[ 5 ]

ただし、このテーマにはさまざまなバリエーションがあり、たとえば、 6 つのフェーズを定義する業界標準データ マイニング プロセス(CRISP-DM) などがあります。

  1. ビジネス理解
  2. データの理解
  3. データ準備
  4. モデリング
  5. 評価
  6. 展開

または、(1)前処理、(2)データマイニング、(3)結果の検証などの簡略化されたプロセス。

2002年、2004年、2007年、2014年に実施された世論調査では、CRISP-DM手法がデータマイナーが使用する主要な手法であることが示されています。[ 16 ] [ 17 ] [ 18 ] [ 19 ]

これらの調査で挙げられた他のデータマイニング標準はSEMMAのみでした。しかし、CRISP-DMを使用していると回答した人は、SEMMAの3~4倍に上りました。複数の研究チームがデータマイニングプロセスモデルのレビューを発表しており[ 20 ] 、AzevedoとSantosは2008年にCRISP-DMとSEMMAの比較調査を実施しました[ 21 ]。

前処理

データマイニングアルゴリズムを使用する前に、ターゲットデータセットを構築する必要があります。データマイニングはデータ内に実際に存在するパターンのみを発見できるため、ターゲットデータセットはこれらのパターンを包含できる十分な大きさでありながら、許容可能な時間制限内でマイニングできるほど簡潔である必要があります。一般的なデータソースは、データマートまたはデータウェアハウスです。データマイニングの前に、多変量データセットを分析するための前処理が不可欠です。次に、ターゲットデータセットをクリーニングします。データクリーニングでは、ノイズを含む観測値や欠損データのある観測値が除去されます。

データマイニング

データマイニングには6つの一般的なタスククラスが含まれます。[ 5 ]

  • 異常検出(外れ値/変化/偏差検出) - 興味深い可能性のある異常なデータ レコード、または標準範囲外であるためさらに調査が必要なデータ エラーを識別します。
  • 相関ルール学習(依存関係モデリング) - 変数間の関係性を探ります。例えば、スーパーマーケットは顧客の購買習慣に関するデータを収集します。相関ルール学習を用いることで、スーパーマーケットはどの商品が頻繁に一緒に購入されるかを特定し、その情報をマーケティングに活用することができます。これはマーケットバスケット分析と呼ばれることもあります。
  • クラスタリングは、データ内の既知の構造を使用せずに、何らかの形で「類似」するデータ内のグループと構造を検出するタスクです。
  • 分類とは、既知の構造を一般化し、新しいデータに適用する作業です。例えば、電子メールプログラムは、電子メールを「正規の」メールと「スパム」のどちらに分類しようとするかもしれません。
  • 回帰– データまたはデータセット間の関係を推定するために、エラーが最小のデータをモデル化する関数を見つけようとします。
  • 要約– 視覚化やレポート生成など、データ セットのよりコンパクトな表現を提供します。

結果の検証

統計学者タイラー・ヴィゲン氏が運営するボットによるデータドレッジによって生成されたデータの例。スペリングビーのコンテストで優勝した最優秀単語と、米国で毒グモによって殺害された人の数との間に密接な関連があることを示しているようだ。

データマイニングは意図せず誤用される可能性があり、一見有意な結果に見えるものの、実際には将来の行動を予測しておらず、新しいデータサンプルでは再現できないため、ほとんど役に立たない結果を生み出すことがあります。これは、あまりにも多くの仮説を調査し、適切な統計的仮説検定を実施しないことによって引き起こされることがあります。機械学習におけるこの問題の単純なバージョンは過学習として知られていますが、同じ問題がプロセスの異なる段階で発生する可能性があり、そのため、トレーニングとテストの分割(適用可能な場合)だけでは、この問題を防ぐのに十分ではない可能性があります。[ 22 ]

データからの知識発見の最終段階は、データマイニングアルゴリズムによって生成されたパターンがより広範なデータセットに出現することを確認することです。アルゴリズムによって発見されたすべてのパターンが必ずしも有効であるとは限りません。データマイニングアルゴリズムは、一般的なデータセットには存在しないパターンをトレーニングセット内に発見することがよくあります。これは過学習と呼ばれます。これを克服するために、評価では、データマイニングアルゴリズムがトレーニングされていないテストデータセットを使用します。学習されたパターンをこのテストデータセットに適用し、得られた出力を目的の出力と比較します。例えば、「スパム」メールと「正当な」メールを区別しようとするデータマイニングアルゴリズムは、サンプルメールのトレーニングセットでトレーニングされます。トレーニングが完了したら、学習されたパターンを、トレーニングされていないテストデータセットに適用します。パターンの精度は、正しく分類されたメールの数から測定できます。アルゴリズムの評価には、ROC曲線などのいくつかの統計的手法を使用できます。

学習したパターンが望ましい基準を満たさない場合は、前処理とデータマイニングの手順を再評価し、変更する必要があります。学習したパターンが望ましい基準を満たしている場合は、最終段階で学習したパターンを解釈し、知識に変換します。

研究

この分野における主要な専門団体は、米国計算機協会(ACM)の知識発見とデータマイニングに関する特別利益団体(SIG)(SIGKDD)である。[ 23 ] [ 24 ] ACM SIGは1989年以来、毎年国際会議を開催し、その議事録を出版している。[ 25 ]また、1999年からは「SIGKDD Explorations」という2年ごとの学術誌を刊行している。 [ 26 ]

データマイニングに関するコンピュータサイエンス会議には次のようなものがあります。

データ マイニングのトピックは、ICDE カンファレンス、SIGMOD カンファレンス、International Conference on Very Large Data Bases などの多くのデータ管理/データベース カンファレンスでも取り上げられています。

標準

データマイニングプロセスの標準を定義する取り組みはいくつか行われてきました。例えば、1999年の欧州データマイニング業界標準プロセス(CRISP-DM 1.0)や2004年のJavaデータマイニング標準(JDM 1.0)などが挙げられます。これらのプロセスの後継となるCRISP-DM 2.0およびJDM 2.0の開発は2006年には活発でしたが、その後停滞しています。JDM 2.0は最終草案に至ることなく撤回されました。

抽出されたモデルを交換するための、特に予測分析での使用において重要な標準規格は、予測モデルマークアップ言語(PMML)です。これは、データマイニンググループ(DMG)によって開発されたXMLベースの言語であり、多くのデータマイニングアプリケーションで交換フォーマットとしてサポートされています。その名称が示すように、PMMLは予測モデルという、ビジネスアプリケーションにとって非常に重要な特定のデータマイニングタスクのみをカバーしています。しかしながら、 DMGとは独立して、例えばサブスペースクラスタリングなどをカバーするための拡張が提案されています。 [ 27 ]

注目すべき用途

データマイニングは、デジタルデータが利用可能なあらゆる場所で利用されます。データマイニングの顕著な例は、ビジネス、医療、科学、金融、建設、監視など多岐にわたります。

プライバシーに関する懸念と倫理

「データマイニング」という用語自体には倫理的な意味合いはないかもしれませんが、ユーザーの行動(倫理的なものもそうでないものも)に関連した情報のマイニングと関連付けられることがよくあります。[ 28 ]

データマイニングの使用方法によっては、場合によってはプライバシー、合法性、倫理性に関する疑問が生じる可能性があります。[ 29 ]特に、Total Information Awareness ProgramやADVISEなど、国家安全保障法執行の目的で政府や商業データセットをデータマイニングすることは、プライバシーに関する懸念を引き起こしています。[ 30 ] [ 31 ]

データマイニングには、機密保持義務プライバシー義務に違反する情報やパターンを発見するためのデータ準備が必要です。これは、一般的にデータ集約によって行われます。データ集約とは、分析を容易にする方法(ただし、個人レベルのプライベートなデータの識別が推測可能になったり、その他の方法で明らかになったりする可能性もあります)で、データ(場合によってはさまざまなソースから)を組み合わせることです。[ 32 ]個人のプライバシーに対する脅威は、データが一度コンパイルされると、データマイナー、または新しくコンパイルされたデータセットにアクセスできる誰かが特定の個人を識別できるようになる場合、特にデータが元々匿名であった場合に発生します。[ 33 ]

データは匿名化されるように変更されることもあり、その場合、個人は容易に特定されなくなる可能性がある。[ 32 ]しかし、「匿名化された」データセットであっても、個人を特定できる十分な情報が含まれている可能性がある。これは、ジャーナリストがAOLによって不注意に公開された一連の検索履歴に基づいて複数の個人を見つけることができた事例で明らかになった。[ 34 ]

個人情報の不注意な開示は、プロバイダーに繋がる公正情報慣行に違反します。この不注意は、対象者に金銭的、精神的、または身体的損害を与える可能性があります。プライバシー侵害の一例として、ウォルグリーンの顧客が2011年に同社を提訴しました。同社は処方箋情報をデータマイニング企業に販売し、その企業がそのデータを製薬会社に提供したとして訴訟を起こしました。[ 35 ]

ヨーロッパの状況

欧州ではプライバシー法が比較的厳格であり、消費者の権利をさらに強化するための取り組みが進められています。しかしながら、 1998年から2000年にかけて策定された米国・EUセーフハーバー原則は、現在、欧州のユーザーを米国企業によるプライバシー搾取の危険にさらしています。エドワード・スノーデンによる世界的な監視活動の暴露を受けて、この協定の撤回を求める議論が高まっています。特に、データが国家安全保障局(NSA)に完全に公開されることになるためです。米国との合意に向けた試みは失敗に終わりました。[ 36 ]

特に英国では、企業がデータマイニングを利用して特定の顧客層をターゲットにし、不当に高い価格を支払わせる事例が発生しています。こうした顧客層は、社会経済的地位の低い層である傾向があり、デジタル市場で自分たちが搾取される可能性があることを知りません。[ 37 ]

米国の状況

米国では、プライバシーに関する懸念は、米国議会が医療保険の携行性と責任に関する法律(HIPAA)などの規制を可決することで対処してきました。HIPAAは、個人が提供する情報とその現在および将来の利用目的について、「インフォームド・コンセント」を与えることを義務付けています。Biotech Business Week誌の記事によると、「実際には、HIPAAは研究分野における長年の規制よりも優れた保護を提供していない可能性がある」とAAHCは述べています。さらに重要なのは、インフォームド・コンセントによる保護というこの規則の目標が、一般の人々には理解できないレベルに近づいているということです。」[ 38 ]これは、データ集約およびマイニングの実践においてデータの匿名性が必要であることを強調しています。

HIPAA(医療保険の携行性と責任に関する法律)や家族教育の権利とプライバシー法(FERPA)といった米国の情報プライバシー法は、それぞれの法律が対象とする特定の分野にのみ適用されます。米国企業の大多数によるデータマイニングの利用は、いかなる法律によっても規制されていません。

ヨーロッパの状況

欧州連合

データセットに著作権がない場合でも、欧州連合はデータベース権を認めているため、データマイニングはデータベース指令によって保護されている知的財産権者の権利の対象となります。欧州の著作権データベース法では、著作権者の許可なく著作権のある作品(ウェブマイニングなど)をマイニングすることは、2019年のデジタル単一市場における著作権に関する指令の第3条と第4条で認められています。科学研究​​のための特定のTDM例外は第3条に記載されていますが、第4条に記載されているより一般的な例外は、著作権者がオプトアウトしていない場合にのみ適用されます。

欧州委員会は2013年に「欧州のライセンス」と題して、テキストマイニングとデータマイニングに関する利害関係者の議論を促進した。[ 39 ]この法的問題の解決策として、制限や例外ではなくライセンス供与に焦点が当てられたため、大学、研究者、図書館、市民社会団体、オープンアクセス出版社の代表者は2013年5月に利害関係者の対話から離脱した。[ 40 ]

イギリス

ハーグリーブス報告書の勧告を受けて、英国政府は2014年に著作権法を改正し、コンテンツマイニングを制限および例外として認めることになった。[ 41 ]英国は、2009年にデータマイニングの例外を導入した日本に次いで、世界で2番目に著作権法を改正した国である。しかし、情報社会指令(2001年)の制限により、英国の例外は非営利目的のコンテンツマイニングのみを認めている。また、英国の著作権法では、この規定を契約条件で上書きすることは認められていない。

スイス

スイスも2020年以降、スイス著作権法第24条dに定められた一定の条件の下で研究分野におけるデータマイニングを許可することで、データマイニングを規制しています。この新しい条項は2020年4月1日に発効しました。[ 42 ]

米国の状況

米国著作権法、特にフェアユースに関する規定は、米国およびイスラエル台湾韓国などのフェアユース諸国におけるコンテンツマイニングの合法性を支持している。コンテンツマイニングは変形的であり、つまり元の作品に取って代わるものではないため、フェアユースの下では合法とみなされている。例えば、Googleブックス和解の一環として、同事件の裁判長は、Googleによる著作権のある書籍のデジタル化プロジェクトは合法であるとの判決を下したが、その理由の一つは、デジタル化プロジェクトが示す変形的利用(テキストマイニングとデータマイニング)である。[ 43 ]

ソフトウェア

無料のオープンソースデータマイニングソフトウェアとアプリケーション

以下のアプリケーションは、フリー/オープンソースライセンスの下で利用可能です。アプリケーションのソースコードへの一般公開も可能です。

  • Carrot2 : テキストと検索結果のクラスタリング フレームワーク。
  • Chemicalize.org : 化学構造マイナーおよび Web 検索エンジン。
  • ELKI : Java言語で記述された高度なクラスター分析および外れ値検出方法を備えた大学の研究プロジェクト。
  • GATE :自然言語処理および言語エンジニアリング ツール。
  • KNIME : ユーザーフレンドリーで包括的なデータ分析フレームワークである Konstanz Information Miner。
  • Massive Online Analysis (MOA) : Javaプログラミング言語の概念ドリフト ツールを使用したリアルタイムのビッグ データ ストリーム マイニング。
  • MEPX : 遺伝的プログラミングの変種に基づいた回帰および分類問題用のクロスプラットフォーム ツール。
  • mlpack : C++言語で記述された、すぐに使用できる機械学習アルゴリズムのコレクション。
  • NLTK (自然言語ツールキット): Python言語用の記号的および統計的自然言語処理 (NLP) 用のライブラリとプログラムのスイート。
  • OpenNN : オープンニューラルネットワークライブラリ。
  • Orange : Python言語で記述されたコンポーネントベースのデータマイニングおよび機械学習ソフトウェア スイート。
  • PSPP : SPSSに似たGNUプロジェクトのデータマイニングおよび統計ソフトウェア
  • R :統計計算、データマイニング、グラフィックスのためのプログラミング言語およびソフトウェア環境。GNUプロジェクトの一部です。
  • scikit-learn : Python プログラミング言語用のオープンソースの機械学習ライブラリ。
  • Torch : Luaプログラミング言語と科学計算フレームワーク用のオープンソースのディープラーニングライブラリで、機械学習アルゴリズムを幅広くサポートしています(開発は主に、より多く使用されているPythonベースのPyTorchに移行しました)
  • UIMA : UIMA (非構造化情報管理アーキテクチャ) は、テキスト、オーディオ、ビデオなどの非構造化コンテンツを分析するためのコンポーネント フレームワークであり、元々は IBM によって開発されました。
  • Weka : Javaプログラミング言語で書かれた機械学習ソフトウェア アプリケーション スイート。

独自のデータマイニングソフトウェアとアプリケーション

以下のアプリケーションは、独自のライセンスに基づいて利用できます。

  • Angoss KnowledgeSTUDIO: データマイニングツール
  • LIONsolver : 学習とインテリジェント最適化 (LION) アプローチを実装する、データ マイニング、ビジネス インテリジェンス、モデリング用の統合ソフトウェア アプリケーション。
  • PolyAnalyst : Megaputer Intelligence によるデータおよびテキスト マイニング ソフトウェア。
  • Microsoft Analysis Services : Microsoftが提供するデータ マイニング ソフトウェア。
  • NetOwl : データ マイニングを可能にする多言語テキストおよびエンティティ分析製品のスイート。
  • Oracle Data Mining : Oracle Corporationのデータ マイニング ソフトウェア。
  • PSeven : DATADVANCEが提供するエンジニアリング シミュレーションと解析、多分野にわたる最適化、データ マイニングの自動化のためのプラットフォーム。
  • Qlucore Omics Explorer: データ マイニング ソフトウェア。
  • RapidMiner :機械学習とデータマイニングの実験のための環境。
  • SAS Enterprise Miner : SAS Instituteが提供するデータ マイニング ソフトウェア。
  • SPSS Modeler : IBMが提供するデータ マイニング ソフトウェア。
  • STATISTICA Data Miner: StatSoftが提供するデータ マイニング ソフトウェア。
  • Tanagra : 視覚化指向のデータマイニング ソフトウェア。教育用としても使用できます。
  • Vertica : Hewlett-Packardが提供するデータ マイニング ソフトウェア。
  • Google Cloud Platform : Googleが管理する自動化されたカスタム ML モデル。
  • Amazon SageMaker :カスタム ML モデルの作成と実稼働化のためにAmazonが提供するマネージドサービス。

参照

方法
アプリケーションドメイン
アプリケーション例
関連トピック

データから情報を抽出する方法(データの分析とは対照的) の詳細については、以下を参照してください。

その他のリソース

参考文献

  1. ^ a b c「データマイニングカリキュラム」 ACM SIGKDD . 2006年4月30日. 2013年10月14日時点のオリジナルよりアーカイブ2014年1月27日閲覧。
  2. ^ Clifton, Christopher (2010). 「ブリタニカ百科事典:データマイニングの定義」 . 2011年2月5日時点のオリジナルよりアーカイブ。 2010年12月9日閲覧
  3. ^ Hastie, Trevor ; Tibshirani, Robert ; Friedman, Jerome (2009). 「統計学習の要素:データマイニング、推論、予測」 2009年11月10日時点のオリジナルよりアーカイブ。 2012年8月7日閲覧
  4. ^ Han, Jaiwei ; Kamber, Micheline; Pei, Jian (2011). 『データマイニング:概念と技法』(第3版). Morgan Kaufmann. ISBN 978-0-12-381479-1
  5. ^ a b c Fayyad, Usama ; Piatetsky-Shapiro, Gregory ; Smyth, Padhraic (1996). 「From Data Mining to Knowledge Discovery in Databases」(PDF) . 2022年10月9日時点のオリジナルよりアーカイブ(PDF) . 2008年12月17日閲覧
  6. ^ハン、ジアウェイ;カンバー、ミシュラン (2001)。データマイニング: 概念と技術モーガン・カウフマン。 p. 5.ISBN 978-1-55860-489-6したがって、データマイニングは「データからの知識マイニング」というより適切な名前であるべきだったが、残念ながらそれは少々長すぎる
  7. ^ OKAIRP 2005年秋季会議、アリゾナ州立大学、 2014年2月1日アーカイブ、Wayback Machine
  8. ^ Olson, DL (2007). ビジネスサービスにおけるデータマイニング.サービスビジネス, 1 (3), 181–193. doi : 10.1007/s11628-006-0014-7
  9. ^ Lovell, Michael C. (1983). 「データマイニング」.経済統計レビュー. 65 (1): 1– 12. doi : 10.2307/1924403 . JSTOR 1924403 . 
  10. ^ Charemza, Wojciech W.; Deadman, Derek F. (1992). 「データマイニング」.計量経済学実践における新しい方向性. アルダーショット: エドワード・エルガー. pp.  14– 31. ISBN 1-85278-461-X
  11. ^ Mena, Jesús (2011). 『法執行機関、セキュリティ、インテリジェンスのための機械学習フォレンジック』フロリダ州ボカラトン: CRC Press (Taylor & Francis Group). ISBN 978-1-4398-6069-4
  12. ^ 「KDD-89 Workshop」KDnuggets . 2019年2月3日時点のオリジナルよりアーカイブ
  13. ^ Piatetsky-Shapiro, Gregory ; Parker, Gary (2011). 「Lesson: Data Mining, and Knowledge Discovery: An Introduction」 . Introduction to Data Mining . KD Nuggets. 2012年8月30日時点のオリジナルよりアーカイブ。 2012年8月30日閲覧
  14. ^ Coenen, Frans (2011-02-07). 「データマイニング:過去、現在、そして未来」 . The Knowledge Engineering Review . 26 (1): 25– 29. doi : 10.1017/S0269888910000378 . ISSN 0269-8889 . S2CID 6487637. 2023年7月2日時点のオリジナルよりアーカイブ2021年9月4日閲覧  
  15. ^カンタージック、メフメド (2003). 『データマイニング:概念、モデル、手法、アルゴリズム』 ジョン・ワイリー・アンド・サンズ. ISBN 978-0-471-22852-3. OCLC  50055336 .
  16. ^ 「データマイニングに使用している主な手法は何ですか(2002年)」KDnuggets、2002年。2017年1月16日時点のオリジナルよりアーカイブ2023年12月29日閲覧。
  17. ^ 「データマイニングに使用している主な手法は何ですか(2004年)」KDnuggets、2004年。2017年2月8日時点のオリジナルよりアーカイブ2023年12月29日閲覧。
  18. ^ 「データマイニングに使用している主な手法は何ですか(2007年)」KDnuggets、2007年。2012年11月17日時点のオリジナルよりアーカイブ2023年12月29日閲覧。
  19. ^ 「データマイニングに使用している主な手法は何ですか(2014年)」KDnuggets、2014年。2016年8月1日時点のオリジナルよりアーカイブ2023年12月29日閲覧。
  20. ^ Lukasz KurganとPetr Musilek:「知識発見とデータマイニングのプロセスモデルに関する調査」Wayback Machineに2013年5月26日アーカイブ。The Knowledge Engineering Review。第21巻第1号、2006年3月、pp 1–24、Cambridge University Press、ニューヨーク、 doi : 10.1017/S0269888906000737
  21. ^ Azevedo, A. および Santos, MF KDD、SEMMA、CRISP-DM:並列概要Archived 2013-01-09 at the Wayback Machine . Proceedings of the IADIS European Conference on Data Mining 2008, pp 182–185.
  22. ^ Hawkins, Douglas M (2004). 「過剰適合の問題」. Journal of Chemical Information and Computer Sciences . 44 (1): 1– 12. doi : 10.1021/ci0342472 . PMID 14741005. S2CID 12440383 .  
  23. ^ 「Microsoft Academic Search: データマイニングにおけるトップカンファレンス」 . Microsoft Academic Search . 2014年11月19日時点のオリジナルよりアーカイブ2014年6月13日閲覧。
  24. ^ 「Google Scholar: Top publications - Data Mining & Analysis」 . Google Scholar . 2023年2月10日時点のオリジナルよりアーカイブ。 2022年6月11日閲覧
  25. ^ Proceedings Archived 2010-04-30 at the Wayback Machine、International Conferences on Knowledge Discovery and Data Mining、ACM、ニューヨーク。
  26. ^ SIGKDD Explorations Archived 2010-07-29 at the Wayback Machine , ACM, New York.
  27. ^ Günnemann, Stephan; Kremer, Hardy; Seidl, Thomas (2011). 「PMML標準のサブスペースクラスタリングモデルへの拡張」. 2011年予測マークアップ言語モデリングワークショップ議事録. p. 48. doi : 10.1145/2023598.2023605 . ISBN 978-1-4503-0837-3. S2CID  14967969 .
  28. ^ Seltzer, William (2005). 「データマイニングの将来性と落とし穴:倫理的問題」(PDF) . ASA政府統計セクション. アメリカ統計協会. 2022年10月9日時点のオリジナルよりアーカイブ(PDF) .
  29. ^ピッツ、チップ(2007年3月15日)「違法な国内スパイの終焉?期待してはいけない」ワシントン・スペクテイター。 2007年11月28日時点のオリジナルよりアーカイブ
  30. ^ Taipale, Kim A. (2003年12月15日). 「データマイニングと国内安全保障:点と点を繋ぎ、データの意味を理解する」 . Columbia Science and Technology Law Review . 5 (2). OCLC 45263753. SSRN 546782. 2014年11月5日時点のオリジナルよりアーカイブ。 2004年4月21日閲覧  
  31. ^ Resig, John. 「インスタントメッセージングサービスのマイニングのためのフレームワーク」(PDF)2022年10月9日時点のオリジナルよりアーカイブ(PDF) 。 2018年3月16日閲覧
  32. ^ a b掘る前に考えよう: データマイニングと集約のプライバシーへの影響Archived 2008-12-17 at the Wayback Machine、NASCIO Research Brief、2004年9月
  33. ^ポール・オーム「破滅のデータベースを作るな」ハーバードビジネス・レビュー
  34. ^ AOLの検索データで個人が特定されたArchived 2010-01-06 at the Wayback Machine、SecurityFocus、2006年8月
  35. ^ Kshetri, Nir ​​(2014). 「ビッグデータのプライバシー、セキュリティ、消費者福祉への影響」(PDF) .電気通信政策. 38 (11): 1134– 1145. doi : 10.1016/j.telpol.2014.10.002 . 2018年6月19日時点のオリジナルよりアーカイブ(PDF) . 2018年4月20日閲覧.
  36. ^ Weiss, Martin A.; Archick, Kristin (2016年5月19日). 「US–EU Data Privacy: From Safe Harbor to Privacy Shield」 . Washington, DC Congressional Research Service. p. 6. R44257. 2020年4月9日時点のオリジナル(PDF)からのアーカイブ。 2020年4月9日閲覧2015年10月6日、CJEUは …現行のセーフハーバーを無効とする判決を下した(即時発効)。
  37. ^ Parker, George (2018年9月30日). 「英国企業、ビッグデータ利用による顧客搾取の標的に」 . Financial Times . 2022年12月10日時点のオリジナルよりアーカイブ。2022年12月4日閲覧。
  38. ^ Biotech Business Week 編集部 (2008年6月30日); BIOMEDICINE; HIPAA Privacy Rule Impedes Biomedical Research、Biotech Business Week、2009年11月17日 LexisNexis Academic より取得
  39. ^ 「Licences for Europe – Structured Stakeholder Dialogue 2013」欧州委員会. 2013年3月23日時点のオリジナルよりアーカイブ。 2014年11月14日閲覧
  40. ^ 「テキストマイニングとデータマイニング:その重要性とヨーロッパにおける変革の必要性」欧州研究図書館協会。 2014年11月29日時点のオリジナルよりアーカイブ。 2014年11月14日閲覧
  41. ^英国の研究者に新著作権法に基づくデータマイニング権が付与される。 2014年6月9日アーカイブ Wayback Machine Out-Law.com。 2014年11月14日閲覧
  42. ^ “Fedlex” . 2021年12月16日時点のオリジナルよりアーカイブ2021年12月16日閲覧。
  43. ^ 「裁判官がGoogleブックスに有利な略式判決を下す – フェアユースの勝利」 Lexology.com Antonelli Law Ltd. 2013年11月19日。2014年11月29日時点のオリジナルよりアーカイブ。 2014年11月14日閲覧

さらに読む