大規模なデータセット 内のパターンを発見するプロセスであるデータマイニングは 、多くのアプリケーションで使用されてきました。
農業 ドローンによる モニタリングや衛星画像は、 土壌の健康状態 、気象パターン 、作物の生育、害虫の 活動などに関するデータ収集に用いられる手法の一つです。データセット は分析され、農業 効率の向上、パターンや傾向の特定、潜在的な損失の最小化に役立てられています。[ 1 ]
データマイニング技術を農業 における視覚データに適用することで、意味のあるパターン、傾向、関連性を抽出できます。この情報は、収穫された果物 や野菜 の欠陥を検出するアルゴリズムの改善に役立ちます。例えば、高度な視覚データ収集 方法、マシンビジョン システム、画像処理は 、果物や野菜をさまざまな表面欠陥に応じて分類するために適用されています。[ 2 ] さらに、このデータを分析することで、欠陥の潜在的な原因を調査できます。こうした知識の多くは、定性的および定量的データ収集方法ではなく、逸話的な証拠に基づいています。しかし、データマイニング技術を園芸 研究に統合する取り組みが進められています。[ 3 ] 市場に出荷される前にリンゴ は検査され、欠陥のあるものは除去されます。しかし、目に見えない欠陥がリンゴの風味や外観に影響を与える可能性があります。その一例が水芯です。これは、果物の保存期間に影響を与える可能性のある内部障害です。わずかに水芯のあるリンゴはより甘いですが、中程度から重度の水芯のあるリンゴは、通常のリンゴに比べて貯蔵性が低下します。さらに、重度の水芯のあるリンゴが数個あると、バッチ全体が台無しになる可能性があります。このため、ベルトコンベア 上を流れるリンゴのX線 画像を撮影する計算システムが研究されています。このシステムは、機械学習アルゴリズムを用いて画像を分析し、果実に水分が含まれている可能性を予測します。発酵 中の代謝変化は、生産されるワイン の品質とワイン生産産業の生産性に影響を与えます。k平均法クラスタリング やバイクラスタリング に基づく分類手法などのデータサイエンス手法は、これらの代謝プロセスを研究するために用いられており、わずか3日後に発酵結果を予測することに成功しています。これらの手法により、発酵中の代謝物プロファイルに基づいてワインを分類する ことが可能になり、従来のワイン分類システムとは一線を画しています。[ 4 ] GMDH (Group Method of Data Handling )型ネットワークと遺伝的アルゴリズムを組み合わせ、 羽毛粉 と家禽内臓粉のタンパク質、脂肪、灰分含有量に基づく代謝エネルギー の予測を行った。発表文献からのデータサンプルを収集し、GMDH型ネットワークモデルの学習に使用した。このアプローチは、家禽飼料サンプルの化学含有量に基づいて代謝エネルギーを予測することができる。[ 5 ] GMDH型ネットワークは、代謝エネルギー、タンパク質 、アミノ酸 などの飼料栄養素から家禽の発育状態を正確に推定することもできる。[ 6 ] 動物の病気を早期に発見できれば、症状が現れ次第、感染した動物を治療・隔離し、病気の蔓延を抑えることができるため、農場の生産性向上につながります。例えば、豚の 咳などの発する音を分析することで、病気の検出が可能です。農場に設置されたマイクを通して豚の鳴き声をモニタリングし、識別する計算システムが開発されています。 PCR - SSCP (一本鎖高次構造多型 )を用いて、イラン産バロチ種の雄ヒツジにおける成長 ホルモン (GH)、レプチン 、カルパイン 、カルパスタチンの 多型性を 調べた。人工ニューラルネットワーク(ANN)モデルを用いて、GH、レプチン、カルパイン、カルパスタチンの多型性、 出生時体重 、出生型を入力パラメータとして子羊の平均日増体量(ADG)を予測した。その結果、ANNモデルは、特定の遺伝子多型、出生時体重、出生型に基づいて子羊の成長をADGの観点から予測するためのデータパターンを識別するのに適したツールであることが明らかになった。PCR-SSCPアプローチとANNベースのモデル解析は、分子 マーカー支援 育種 プログラムにおいて、ヒツジ生産の効率性を向上させるために使用できる可能性がある。[ 7 ] パキスタン の農業研究者による最近の研究では、農薬推奨政策が綿花作物における農薬使用量の増加に寄与していることが示され、農薬使用量と収穫量の間には負の相関関係があることが報告されています。農薬の過剰使用は、農家に経済的、環境的、そして社会的影響を及ぼしています。綿花産業において、害虫データと気象記録を用いたデータマイニングを行うことで、農薬使用量を最適化する方法が示されています。人工ニューラルネットワーク (ANN)ベースのモデルと感度分析 および最適化アルゴリズムを組み合わせたプラットフォームを用いて、ブロイラー鶏の トレオニン に対する反応に関する公開データを統合した。体重増加と飼料効率 に関するANNモデルの解析では、飼料タンパク質濃度がトレオニン濃度よりも重要であることが示唆された。その結果、タンパク質18.69%、トレオニン0.73%を含む飼料が最適な体重増加につながる可能性がある一方、タンパク質 18.71% 、トレオニン0.75%を含む飼料が最適な飼料効率を達成する可能性があることが示された。[ 8 ]
仕事 ビジネスにおいて、データマイニングとは、データウェアハウス・データベースに静的データとして保存されている過去のビジネス活動を分析することです。その目的は、隠れたパターンや傾向を明らかにすることです。データマイニング・ソフトウェアは、高度なパターン認識アルゴリズム を用いて大量のデータを精査し、これまで知られていなかった戦略的なビジネス情報の発見を支援します。企業がデータマイニングを活用する例としては、市場分析による新製品群の特定、製造上の問題の根本原因の究明、顧客離れの 防止と新規顧客の獲得、既存顧客へのクロスセル 、より正確な顧客プロファイリングなどが挙げられます。[ 9 ]
今日の世界では、企業による生データの収集は爆発的な速度で進んでいます。例えば、ウォルマートは毎日2,000万件以上のPOS取引を処理しています。この情報は中央データベースに保存されていますが、何らかのデータマイニングソフトウェアによる分析がなければ役に立ちません。ウォルマートが データマイニング技術を用いてPOSデータを分析すれば、売上動向の把握、マーケティングキャンペーンの展開、顧客ロイヤルティのより正確な予測などが可能になります。[ 10 ] [ 11 ] 電子商取引サイトで販売される商品の分類は、基本的な問題です。正しい商品分類システムは、検索や閲覧においてユーザーにとって適切な商品を特定するのに役立つため、ユーザーエクスペリエンスにとって不可欠です。商品分類は、データマイニングにおける教師あり分類問題として定式化できます。ここで、カテゴリはターゲットクラス、特徴量は商品の説明文を構成する単語です。アプローチの1つは、最初に類似したグループを見つけ、それらを潜在グループにまとめることです。新しい商品が与えられた場合、まず粗レベル分類と呼ばれる潜在グループに分類します。次に、2回目の分類を行い、商品が属するカテゴリを見つけます。[ 12 ] クレジットカードや店舗のポイントカードが使用されるたび、あるいは保証カードに記入されるたびに、ユーザーの行動に関するデータが収集されます。Google、Facebook、Amazonなどの企業が私たちについて保存している情報の量は、多くの人々にとって不安 で あり、 プライバシーを懸念しています。私たちの個人データは、有害または望ましくない方法で使用される可能性がありますが、私たちの生活をより良くするためにも使用されています。例えば、フォードとアウディは、将来的には顧客の運転パターンに関する情報を収集し、より安全なルートを推奨したり、危険な道路状況をドライバーに警告したりしたいと考えています。[ 13 ] 顧客関係管理(CRM) アプリケーションにおけるデータマイニングは、収益向上に大きく貢献します。コールセンターや郵送を通じて見込み客や顧客に無作為に連絡を取るのではなく、企業はオファーに反応する可能性が高いと予測される見込み客に注力することができます。より高度な手法を用いることで、キャンペーン全体のリソースを最適化し、(あらゆる潜在的なオファーの中で)どのチャネルとどのオファーに個人が最も反応する可能性を予測することが可能になります。さらに、高度なアプリケーションを用いて郵送を自動化することも可能です。データマイニングの結果(潜在的な見込み客/顧客とチャネル/オファー)が判明すれば、この「高度なアプリケーション」は自動的に電子メールまたは通常の郵便を送信できます。最後に、オファーがなくても多くの人が行動を起こす場合、「アップリフトモデリング 」を用いて、オファーを提示すれば反応が最も高まる人を判断できます。アップリフトモデリングにより、マーケターは説得しやすい相手に郵送やオファーを集中させ、オファーなしでも製品を購入する相手にはオファーを送らないようにすることができます。データ クラスタリングは 、顧客データ セット内のセグメントまたはグループを自動的に検出するためにも使用できます。データマイニングを導入する企業は投資収益率を得られる一方で、予測モデルの数が急速に膨大になる可能性があることも認識しています。例えば、顧客離脱数を予測するために1つのモデルを使用するのではなく、 地域や顧客タイプごとに個別のモデルを構築することを選択する企業もあります。多数のモデルを維持管理する必要がある場合、より自動化されたデータマイニング手法を採用する企業もあります。 データマイニングは、人事部門が最も成功している従業員の特徴を特定するのに役立ちます。例えば、優秀な従業員が出身した大学などの情報は、人事部門がそれに応じて採用活動を集中させるのに役立ちます。さらに、戦略的企業経営(SEM)アプリケーションは、利益やマージンシェア目標といった企業レベルの目標を、生産計画や人員配置といった業務上の意思決定に落とし込むのに役立ちます。[ 14 ] データマイニングは組織にとって有益です。組織データマイニング(ODM)とは、データマイニング(DM)ツールとテクノロジーを活用し、データを価値ある実用的な知識に変換することで組織の意思決定プロセスを強化し、戦略的およびビジネス上の競争優位性を獲得することを指します。得られたデータ(従業員の離職率など)は、組織がそれに応じて従業員の定着率向上に注力するのに役立ちます。さらに、組織パフォーマンス管理のデータマイニングおよび分析アプリケーションは、利益や売上目標などの企業レベルの目標を、従業員のKPIや必要な労働力レベルなどの業務上の意思決定に反映させるのに役立ちます。[ 15 ] マーケットバスケット分析は、アルファ消費者 の購買パターンを特定するために用いられてきました。このタイプのユーザーに関する収集されたデータを分析することで、企業は将来の購買傾向を予測し、供給と需要を予測することが可能になりました。データマイニングは、カタログマーケティング業界において非常に効果的なツールです。カタログ制作会社は、数年にわたる数百万人の顧客取引履歴を蓄積した豊富なデータベースを保有しています。データマイニングツールは、顧客間のパターンを特定し、今後のメールキャンペーンに最も反応する可能性の高い顧客を特定するのに役立ちます。 ビジネスアプリケーションのデータマイニングは、複雑なモデリングと意思決定プロセスに統合することができます。[ 16 ] LIONsolverは、リアクティブビジネスインテリジェンス(RBI)を使用して、データマイニング、 モデリング 、インタラクティブな視覚化を 、人間と自動学習によるエンドツーエンドの発見と継続的なイノベーションプロセスに統合する「総合的な」アプローチを提唱しています。 [ 17 ] 意思決定 の分野では、RBIアプローチは意思決定者から徐々に得られる知識をマイニングし、それに応じて意思決定方法を自己調整するために使用されてきた。[ 18 ] データマイニングシステムの品質と意思決定者が行う意思のある投資額の関係は、「抽出された知識」の価値に関する経済的観点を組織への見返りの観点から提供することによって形式化された。[ 16 ] この意思決定理論的分類フレームワーク[ 16 ] は実際の半導体ウェーハ製造ラインに適用され、半導体ウェーハ製造ラインを効果的に監視および制御するための意思決定ルール が開発された。[ 19 ] 集積回路(IC)製造ラインに関連するデータマイニングの例が、論文「VLSIテストの最適化のためのICテストデータのマイニング」[ 20 ] で説明されています。この論文では、データマイニングと意思決定分析をダイレベルの機能テストの問題に適用する方法について説明しています。ここで紹介する実験は、過去のダイテストデータをマイニングするシステムを適用して、ダイの故障パターンの確率モデルを作成できることを実証しています。これらのパターンは、次にどのダイをテストするか、いつテストを中止するかをリアルタイムで決定するために活用されます。このシステムは、過去のテストデータを用いた実験に基づき、成熟したIC製品の利益を向上させる可能性があることが示されています。半導体製造環境におけるデータマイニング手法の適用例[ 21 ] [ 22 ] は、データが不足しており、プロセスに影響を与える様々な物理的および化学的パラメータが非常に複雑な相互作用を示す場合に、データマイニング手法が特に有用である可能性を示唆しています。また、データマイニングを用いた半導体製造プロセスのオンライン監視が非常に効果的である可能性も示唆しています。
科学と工学 近年、データマイニングは、バイオインフォマティクス 、遺伝学 、医学 、教育、電力 工学など の科学および工学の分野で広く利用されています。
ヒト遺伝学の研究において、配列マイニングは、ヒト DNA 配列における個人間差異と疾患感受性の変動との間のマッピング関係を理解するという重要な目標の達成に役立ちます。簡単に言えば、配列マイニングは、個人のDNA配列の変化が、がん などの一般的な疾患の発症リスクにどのように影響するかを明らかにすることを目的としており、これらの疾患の診断、予防、および治療法の改善に非常に重要です。このタスクを実行するために使用されるデータマイニング手法の一つに、多因子次元削減が あります。[ 23 ] 電力工学の分野では、高電圧電気機器の状態監視 にデータマイニング手法が広く利用されている。状態監視の目的は、例えば絶縁状態( またはその他の重要な安全関連パラメータ)に関する貴重な情報を得ることである。自己組織化マップ (SOM)などのデータクラスタリング 手法は、変圧器負荷時タップ切換器(OLTCS)の振動監視および解析に応用されている。振動監視を用いることで、タップ切換操作ごとに、タップ切換器の接点と駆動機構の状態に関する情報を含む信号が生成されることがわかる。当然のことながら、タップ位置が異なると信号も異なる。しかし、全く同じタップ位置であっても、正常状態信号の間には大きなばらつきが見られた。SOMは、異常状態を検知し、その異常の性質について仮説を立てるために応用されている。[ 24 ] データマイニング手法は、電力変圧器の 溶存ガス分析 (DGA)に適用されてきました。電力変圧器の診断法としてのDGAは、長年利用されてきました。SOMなどの手法は、生成されたデータを分析し、標準的なDGA比率法(デュバル・トライアングルなど)では明らかでない傾向を特定するために適用されてきました。[ 24 ] 教育研究では、データマイニングは、学生が学習意欲を低下させる行動を選択する要因を研究するために用いられており[ 25 ] 、大学の学生の定着率に影響を与える要因の理解にも役立っています[ 26 ] 。データマイニングの社会応用における同様の例として、専門知識発見システム への応用が挙げられます。このシステムでは、人間の専門知識の記述子を抽出、正規化、分類することで、特に科学技術分野における専門家の発見を容易にします。このように、データマイニングは組織記憶を 促進することができます。 ドメインオントロジーを活用した 生物医学 データのデータマイニング手法[ 27 ] 、臨床試験データのマイニング[ 28 ] 、SOMを使用したトラフィック分析 [ 29 ]など。 薬物有害反応監視において、ウプサラ監視センター は1998年以来、データマイニング手法を用いて、WHOの460万件の薬物有害反応疑い 事例のグローバルデータベースから、新たな医薬品安全性問題を示す報告パターンを定期的にスクリーニングしてきた。[ 30 ] 最近では、同様の手法が開発され、大量の電子医療記録 から、薬物処方と医療診断を関連付ける時間的パターンをマイニングする。[ 31 ] データ マイニングは、ソフトウェア エンジニアリング の領域内のソフトウェア 成果物に適用されてきました:ソフトウェア リポジトリのマイニング 。 微生物学の分野では、データマイニング手法が食品中の細菌の集団行動を予測するために利用されてきた。[ 32 ]
人権 政府記録、特に司法制度(裁判所、刑務所など)の記録をデータマイニングすることで、様々な政府機関による無効または不正な法的記録の作成と公表に関連する体系的な人権 侵害を発見することができます。[ 33 ] [ 34 ]
医療データマイニング いくつかの機械学習 アルゴリズムは、医療分野において、セカンドオピニオン診断ツールや、 データベースにおける知識発見 プロセスにおける知識抽出段階のツールとして応用することができます。これらの分類器の1つ(プロトタイプ模範学習分類器 (PEL-C )と呼ばれる)[ 35 ] は、症候群だけ でなく非定型的な臨床症例も 発見することができます。
データマイニングのプロセスを活用している現在の医療分野の一つにメタボロミクス があります。これは、生体分子の調査と研究、そしてそれらが体液、細胞、組織などとどのように相互作用するかを特徴付ける分野です。[ 36 ] メタボロミクスは非常に多くのデータを扱う分野であり、結論を導き出す前に、しばしば膨大な量の無関係なデータを精査する必要があります。データマイニングは、この比較的新しい医学研究分野を過去10年間で大きく成長させており、この分野における新たな研究を発見するための方法となる可能性が高いでしょう。[ 36 ]
2011年、米国最高裁判所 はソレル対IMSヘルス社の訴訟で、 薬局が 外部企業と情報を共有することを認める判決を下しました。この行為は憲法修正第1条 に基づき認められ、「言論の自由」を保護していました。[ 37 ] しかし、「経済的及び臨床的健康のための医療情報技術法(HITECH法)」の成立は、米国における電子医療記録(EHR)とそれを支える技術の導入を促進するきっかけとなりました。[ 38 ] HITECH法は、2009年2月17日に米国復興・再投資法(ARRA)の一環として成立し、医療データマイニングへの扉を開きました。[ 39 ] この法律が成立する前は、米国に拠点を置く医師のうち、電子患者記録を利用しているのはわずか20%と推定されていました。[ 38 ] ソレン・ブルナックは、「患者記録は可能な限り情報豊富になり」、それによって「データマイニングの機会が最大化される」と指摘している。[ 38 ] したがって、電子患者記録は医療データマイニングに関する可能性をさらに拡大し、医療データ分析の膨大な情報源への扉を開くことになる。
空間データマイニング 空間データマイニングとは、データマイニング手法を空間データに適用することです。空間データマイニングの最終目的は、地理に関するデータパターンを見つけることです。これまで、データマイニングと地理情報システム(GIS)はそれぞれ独自の手法、伝統、そして可視化とデータ分析へのアプローチを持つ、別々の技術として存在してきました。特に、現代のGISのほとんどは、非常に基本的な空間分析機能しか備えていません。IT、デジタルマッピング、リモートセンシングの発展、そしてGISの世界的な普及によって、地理参照データの爆発的な増加が見られ、地理分析とモデリングにおけるデータ駆動型の帰納的アプローチの開発の重要性が高まっています。
データマイニングは、GISに基づく応用意思決定に大きな潜在的メリットをもたらします。近年、これら2つの技術を統合する作業は極めて重要になっています。特に、テーマ別および地理参照データを含む巨大なデータベースを保有する様々な公共部門および民間部門の組織が、そこに含まれる情報の大きな可能性に気づき始めていることが挙げられます。これらの組織には、以下のようなものがあります。
地理参照統計データの分析または配信を必要とするオフィス 公衆衛生サービスが疾病のクラスター化の説明を模索 土地利用パターンの変化が気候変動に与える影響を評価する環境機関 空間的な位置に基づいて顧客セグメンテーションを行うジオマーケティング企業。 空間マイニングにおける課題:地理空間データリポジトリは非常に大規模になる傾向があります。さらに、既存のGISデータセットは、多くの場合、フィーチャと属性のコンポーネントに分割されており、従来はハイブリッドデータ管理システムにアーカイブされています。リレーショナル(属性)データ管理とトポロジカル(フィーチャ)データ管理では、アルゴリズム要件が大きく異なります。[ 40 ] これに関連して、地理データ形式の範囲と多様性があり、これが独自の課題を引き起こします。デジタル地理データ革命は、従来の「ベクター」および「ラスター」形式を超えた新しいタイプのデータ形式を生み出しています。地理データリポジトリには、画像や地理参照マルチメディアなど、構造化されていないデータがますます含まれるようになっています。[ 41 ]
地理的知識の発見とデータマイニングには、いくつかの重要な研究課題があります。ミラーとハン[ 42 ] は、この分野における新たな研究テーマとして以下のリストを挙げています。
地理データウェアハウス(GDW)の開発とサポート :主流のデータウェアハウスでは、空間プロパティは単純な非空間 属性にまで簡略化されることがよくあります。統合されたGDWを作成するには、セマンティクス、参照システム、ジオメトリ、精度、位置などの違いを含む、空間および時間データの相互運用性に関する問題を解決する必要があります。地理知識発見におけるより優れた時空間表現 :現在の地理知識発見(GKD)手法では、一般的に地理オブジェクトと空間関係の表現が非常に単純化されています。地理データマイニング手法は、より複雑な地理オブジェクト(線やポリゴンなど)と関係性(非ユークリッド距離、方向、接続性、地形などの属性付き地理空間を介した相互作用など)を認識する必要があります。さらに、時間軸をこれらの地理表現と関係性により深く統合する必要があります。多様なデータ タイプを使用した地理的知識の発見 : 従来のラスター モデルやベクター モデル以外にも、画像や地理参照マルチメディア、動的データ タイプ (ビデオ ストリーム、アニメーション) など、多様なデータ タイプを処理できる GKD 手法を開発する必要があります。
時系列データマイニング データには、異なる時間に生成・記録された属性が含まれる場合があります。この場合、データ内の意味のある関係性を見つけるには、属性の時間的順序を考慮する必要がある場合があります。時間的関係は、因果関係を示す場合もあれば、単なる関連性を示す場合もあります。
センサーデータマイニング 無線センサーネットワークは、 大気汚染モニタリングなど、様々な用途における空間データマイニングのためのデータ収集を容易にするために利用可能である。[ 43 ] このようなネットワークの特徴は、環境特性を監視する近隣のセンサーノードが通常同様の値を記録することである。センサー観測間の空間相関に起因するこのようなデータの冗長性は、ネットワーク内データ集約およびマイニング技術の着想源となっている。異なるセンサーによってサンプリングされたデータ間の空間相関を測定することで、より効率的な空間データマイニングアルゴリズムを開発するための幅広い種類の特殊アルゴリズムを開発することができる。[ 44 ]
ビジュアルデータマイニング アナログからデジタルへの移行の過程で、大規模なデータセットが生成、収集、保存され、統計的なパターン、傾向、そしてデータに隠された情報を発見することで、予測パターンを構築してきました。研究によると、ビジュアルデータマイニングは従来のデータマイニングよりも高速で、はるかに直感的であることが示唆されています。[ 45 ] [ 46 ] [ 47 ] コンピュータービジョン も参照してください。
音楽データマイニング データマイニング技術、特に共起 分析は、音楽をより客観的にジャンル に分類するなどの目的で、音楽コーパス(ラジオリスト、CDデータベース)間の関連する類似点を発見するために使用されてきました。 [ 48 ]
監視 データマイニングは米国政府によって利用されてきました。プログラムには、 Total Information Awareness (TIA)プログラム、Secure Flight(旧称Computer-Assisted Passenger Prescreening System(CAPPS II ))、Analysis, Dissemination, Visualization, Insight, Semantic Enhancement(ADVISE )[ 49 ] 、Multi-state Anti-Terrorism Information Exchange(MATRIX )[ 50 ] などがあります。これらのプログラムは、アメリカ合衆国憲法修正第4条 に違反するかどうかの論争により中止されましたが、これらのプログラムに基づいて設立された多くのプログラムは、現在も異なる組織や異なる名称で資金提供を受けています。[ 51 ]
テロ対策 の文脈において、特に妥当なデータマイニングの方法は、「パターンマイニング」と「主題ベースのデータマイニング」の 2 つです。
パターンマイニング 「パターンマイニング」とは、データ内に存在するパターン を見つけるデータマイニング手法です。この文脈では、パターンとは多くの場合 、相関ルール を指します。相関ルールの検索が最初に行われたのは、スーパーマーケットの取引データを分析し、購入商品に関する顧客行動を検証したいという思いからでした。例えば、「ビール ⇒ ポテトチップス(80%)」という相関ルールは、ビールを購入した顧客の5人中4人がポテトチップスも購入したことを示しています。
テロ活動を識別するツールとしてのパターンマイニングの文脈において、国立研究会議は 次のような定義を行っている。「パターンベースのデータマイニングは、テロ活動に関連している可能性のあるパターン(異常なデータパターンを含む)を探す。これらのパターンは、大きなノイズの海の中の小さな信号とみなされる可能性がある。」[ 52 ] [ 53 ] [ 54 ] パターンマイニングには、時間的および非時間的領域の両方で見られるパターンが古典的な知識発見検索方法にインポートされる音楽情報検索 (MIR)などの新しい分野が含まれる。
主題ベースのデータマイニング 「主題ベースのデータマイニング」とは、データ内の個人間の関連性を探索するデータマイニング手法です。テロ対策の文脈において、全米研究評議会は 次のように定義しています。「主題ベースのデータマイニングは、他の情報に基づいて高い関心度とみなされる開始個人またはその他のデータを使用し、その開始データに関連する他の人物、金融取引、金融の動きなどを特定することを目的とする。」[ 53 ]
知識グリッド 知識発見「オン・ザ・グリッド」とは、一般的に、グリッドコンピューティングの 概念を用いてオープンな環境で知識発見を行うことを指します。グリッドコンピューティングでは、ユーザーは様々なオンラインデータソースからデータを統合し、リモートリソースも活用してデータマイニングタスクを実行できます。最も初期の例は、インペリアル・カレッジ・ロンドン で開発されたDiscovery Net [ 55 ] [ 56 ] で、バイオインフォマティクスアプリケーション向けの完全インタラクティブな分散知識発見アプリケーションのデモンストレーションに基づき、ACM SC02(スーパーコンピューティング2002)会議および展示会で「最も革新的なデータ集約型アプリケーション賞」を受賞しました。他の例としては、カラブリア大学の研究者による研究が挙げられます。彼らは、 グリッドコンピューティング に基づいて分散知識発見のためのナレッジグリッドアーキテクチャを開発しました。[ 57 ] [ 58 ]
参考文献 ^ Ait Issad, Hassina (2019年10月). 「スマート農業におけるデータマイニング技術の包括的レビュー」 .農業・環境・食品工学 . 12 (4): 511– 525. Bibcode : 2019EAEF...12..511A . doi : 10.1016/j.eaef.2019.11.003 . ^ Firouz, Mahmoud Soltani (2022). 「マシンビジョンシステムと画像処理を用いた果物と野菜の欠陥検出」 Springer Nature Link . 14 (3): 353– 379. doi : 10.1007/s12393-022-09307-1 . ^ Hill, MG; Connolly, PG; Reutemann, P.; Fletcher, D. (2014年10月1日). 「ニュージーランドにおけるキウイフルーツの作物保護に関する意思決定を支援するデータマイニングの活用」. Computers and Electronics in Agriculture . 108 : 250–257 . Bibcode : 2014CEAgr.108..250H . doi : 10.1016/j.compag.2014.08.011 . ^ Urtubia, Alejandra; Pérez-Correa, J. Ricardo; Soto, Alvaro; Pszczólkowski, Philippo (2007-12-01). 「データマイニング技術を用いた産業用ワインの発酵問題予測」 . Food Control . 18 (12): 1512– 1517. doi : 10.1016/j.foodcont.2006.09.010 . ISSN 0956-7135 . ^ Ahmadi, H.; Golian, A.; Mottaghitalab, M.; Nariman-Zadeh, N. (2008-09-01). 「データ処理型ニューラルネットワークのグループ法を用いた羽毛ミールおよび家禽内臓ミールの真の代謝エネルギー予測モデル」 . Poultry Science . 87 (9): 1909– 1912. doi : 10.3382/ps.2007-00507 . ISSN 0032-5791 . PMID 18753461 . ^ Ahmadi, Dr H.; Mottaghitalab, M.; Nariman-Zadeh, N.; Golian, A. (2008-05-01). 「データ処理型ニューラルネットワークのグループ法を用いた、飼料栄養素からのブロイラー鶏の成績予測」. British Poultry Science . 49 (3): 315– 320. doi : 10.1080/00071660802136908 . ISSN 0007-1668 . PMID 18568756. S2CID 205399055 . ^ Mojtaba, Tahmoorespur; Hamed, Ahmadi (2012-01-01). 「遺伝子多型、出生時体重、出生型から羊の体重増加を記述するニューラルネットワークモデル」 . Livestock Science . ISSN 1871-1413 . ^ Ahmadi, H.; Golian, A. (2010-11-01). 「ブロイラー鶏のスレオニン反応データのニューラルネットワークモデルへの統合」 . Poultry Science . 89 (11): 2535– 2541. doi : 10.3382/ps.2010-00884 . ISSN 0032-5791 . PMID 20952719 . ^ JA オブライエンおよびマラカス GM (2011)。経営情報システム。ニューヨーク州ニューヨーク州: マグロウヒル/アーウィン。 ^ アレクサンダー、ダグ。 「データマイニング」 テキサス大学オースティン校教養学部。 ^ 「Daniele Medri: ビッグデータとビジネス:進行中の革命」 Statistics Views . 2013年10月21日. 2015年6月17日時点の オリジナル よりアーカイブ。 2015年 9月21日 閲覧 。 ^ 「Large Scale Item Categorization」 (PDF) 。2015年10月5日時点の オリジナル (PDF) からアーカイブ 。 ^ Goss, S. (2013年4月10日). データマイニングと個人のプライバシー. The Telegraph「データマイニングと個人のプライバシー | the Sun News | Macon.com」 より引用. 2014年7月5日時点の オリジナルよりアーカイブ。 2015年9月21日 閲覧 。 ^ Monk, Ellen; Wagner, Bret (2006). Concepts in Enterprise Resource Planning, Second Edition . Boston, MA: Thomson Course Technology. ISBN 978-0-619-21663-4 . OCLC 224465825 .^ Chalutz-Ben Gal, H. (2023). Rokach, L.; Maimon, O.; Shmueli, E. (編). 「人材ベースの組織データマイニング(HRODM):テーマ、トレンド、焦点、将来」 (PDF) . Springer. pp. 833– 866. ^ a b c Elovici, Yuval; Braha, Dan (2003). 「データマイニングへの意思決定理論的アプローチ」 (PDF) . IEEE Transactions on Systems, Man, and Cybernetics - Part A: Systems and Humans . 33 (1): 42– 51. Bibcode : 2003ITSMA..33...42E . doi : 10.1109/TSMCA.2003.812596 . hdl : 10150/105859 . ^ Battiti, Roberto、Brunato, Mauro著、『Reactive Business Intelligence. From Data to Models to Insight』 、Reactive Search Srl、イタリア、2011年2月。ISBN 978-88-905795-0-9 。 ^ Battiti, Roberto; Passerini, Andrea (2010). 「脳コンピュータ進化型多目的最適化(BC-EMO):意思決定者に適応する遺伝的アルゴリズム」 (PDF) . IEEE Transactions on Evolutionary Computation . 14 (15): 671– 687. doi : 10.1109/TEVC.2010.2058118 . S2CID 2182650 . ^ Braha, Dan; Elovici, Yuval; Last, Mark (2007). 「実用的なデータマイニングの理論と半導体製造管理への応用」 (PDF) . International Journal of Production Research . 45 (13): 3059– 3084. CiteSeerX 10.1.1.127.1472 . doi : 10.1080/00207540600654475 . S2CID 2299178 . ^ Fountain, Tony; Dietterich, Thomas; Sudyka, Bill (2000); ICテストデータのマイニングによるVLSIテストの最適化 、第6回ACM SIGKDD国際知識発見&データマイニング会議の議事録、ACM Press、pp. 18–25 ^ Braha, Dan; Shmilovici, Armin (2002). 「半導体産業における洗浄プロセス改善のためのデータマイニング」 (PDF) . IEEE Transactions on Semiconductor Manufacturing . 15 (1): 91– 101. Bibcode : 2002ITSM...15...91B . CiteSeerX 10.1.1.10.7921 . doi : 10.1109/66.983448 . ^ Braha, Dan; Shmilovici, Armin (2003). 「フォトリソグラフィープロセスにおける相互作用の発見のための決定木誘導法の利用について」 (PDF) . IEEE Transactions on Semiconductor Manufacturing . 16 (4): 644– 652. Bibcode : 2003ITSM...16..644B . doi : 10.1109/TSM.2003.818959 . ^ Zhu, Xingquan; Davidson, Ian (2007). 『知識発見とデータマイニング:課題と現実 』 ニューヨーク:ハーシー社 p. 18. ISBN 978-1-59904-252-7 。^ a b McGrail, Anthony J.; Gulski, Edward; Allan, David; Birtwhistle, David; Blackburn, Trevor R.; Groot, Edwin RS「高電圧電気プラントの状態を評価するためのデータマイニング技術」 CIGRÉ WG 15.11、研究委員会15 。 ^ ベイカー、ライアン SJ d. 「ゲーミングはシステムの状態か特性か? 検証済み行動モデルのマルチコンテキストアプリケーションによる教育用データマイニング」 ユーザーモデリングのためのデータマイニングワークショップ 2007 。 ^ Superby Aguirre, Juan Francisco; Vandamme, Jean-Philippe; Meskens, Nadine. 「データマイニング手法を用いた大学1年生の成績に影響を与える要因の特定」 教育データマイニングワークショップ 2006 。 ^ Zhu, Xingquan; Davidson, Ian (2007). 知識発見とデータマイニング:課題と現実 . ニューヨーク:ハーシー. pp. 163– 189. ISBN 978-1-59904-252-7 。^ Zhu, Xingquan; Davidson, Ian (2007). 『知識発見とデータマイニング:課題と現実 』 ニューヨーク:ハーシー社. pp. 31– 48. ISBN 978-1-59904-252-7 。^ Chen, Yudong; Zhang, Yi; Hu, Jianming; Li, Xiang (2006). 「カーネルPCAと自己組織化マップを用いた交通データ分析」. 2006 IEEE Intelligent Vehicles Symposium . pp. 472– 477. doi : 10.1109/IVS.2006.1689673 . ISBN 978-4-901122-86-3 . S2CID 16645060 .^ Bate, Andrew; Lindquist, Marie; Edwards, I. Ralph; Olsson, Sten; Orre, Roland; Lansner, Anders; de Freitas, Rogelio Melhado (1998年6月). 「ベイジアンニューラルネットワーク法による有害薬物反応シグナル生成」 (PDF) . European Journal of Clinical Pharmacology . 54 (4): 315–21 . doi : 10.1007 / s002280050466 . PMID 9696956. S2CID 25966839 . ^ Norén, G. Niklas; Bate, Andrew; Hopstadius, Johan; Star, Kristina; Edwards, I. Ralph (2008); 「傾向と過渡的影響のための時間的パターン発見:患者記録への応用」第14回国際知識発見・データマイニング会議 (SIGKDD 2008) 議事録、ネバダ州ラスベガス 、pp. 963–971。 ^ 日浦 聡子; 小関 茂; 小山 健人 (2021-05-19). 「機械学習と微生物の生育・生存データベースを用いた食品中のリステリア菌の個体群行動予測」 . Scientific Reports . 11 (1): 10613. Bibcode : 2021NatSR..1110613H . doi : 10.1038/s41598-021-90164- z . ISSN 2045-2322 . PMC 8134468. PMID 34012066 . ^ ゼルニック、ジョセフ「市民の義務としてのデータマイニング - オンライン公共囚人登録システム」 、国際ソーシャルメディアジャーナル:モニタリング、測定、マイニング 、1:84-96(2010) ^ ゼルニック、ジョセフ「ネットワーク化された米国連邦裁判所のオンライン司法記録のデータマイニング」 、国際ソーシャルメディアジャーナル:モニタリング、測定、マイニング 、1:69–83 (2010) ^ Gagliardi, F (2011). 「インスタンスベース分類器の医療データベースへの応用:診断と知識抽出」. 人工知能と医療 . 52 (3): 123– 139. doi : 10.1016/j.artmed.2011.04.002 . PMID 21621400 . ^ a b マルティネス=アランツ、イボン;メイヨー、レベッカ。ペレス=コルメンツァーナ、ミリアム。ミンチョレ、イツィアル。サラザール、ロレーナ。アロンソ、クリスティーナ。マト、ホセ M. (2015)。 「データマイニングによるメタボロミクス研究の強化」。 プロテオミクスジャーナル 。 127 (Pt B): 275–288 。 土井 : 10.1016/j.jprot.2015.01.019 。 PMID 25668325 。 ^ David G. Savage (2011年6月24日). 「製薬業界:最高裁、2つの判決で製薬業界に味方」 ロサンゼルス ・タイムズ. 2012年11月7日 閲覧 。 ^ a b c Goth, Gregory (2012). 「医療データの分析」 Communications of the ACM . 55 (6): 13. doi : 10.1145/2184319.2184324 . ^ 「2009 年 HITECH (経済的および臨床的健康のための医療情報技術) 法とは何ですか? | TechTarget からの定義」 。 ^ Healey, Richard G. (1991);データベース管理システム 、Maguire, David J.、Goodchild, Michael F.、Rhind, David W. (編)、『地理情報システム:原理と応用』 、ロンドン、英国:Longman ^ Camara, Antonio S.; Raper, Jonathan (eds.) (1999); Spatial Multimedia and Virtual Reality 、ロンドン、イギリス: Taylor and Francis ^ ミラー、ハーヴェイ・J.、ハン、ジアウェイ(編)(2001年)地理データマイニングと知識発見 、ロンドン、英国:テイラー&フランシス ^ Ma, Y.; Richards, M.; Ghanem, M.; Guo, Y.; Hassard, J. (2008). 「ロンドンにおけるセンサーグリッドに基づく大気汚染モニタリングと採掘」 . Sensors . 8 ( 6): 3601– 3623. Bibcode : 2008Senso...8.3601M . doi : 10.3390/s8063601 . PMC 3714656. PMID 27879895 . ^ Ma, Y.; Guo, Y.; Tian, X.; Ghanem, M. (2011). 「空間相関センサーネットワークのための分散クラスタリングベース集約アルゴリズム」. IEEE Sensors Journal . 11 (3): 641. Bibcode : 2011ISenJ..11..641M . CiteSeerX 10.1.1.724.1158 . doi : 10.1109/JSEN.2010.2056916 . S2CID 1639100 . ^ Zhao, Kaidi; Liu, Bing; Tirpark, Thomas M.; Weimin, Xiao;有用な知識の便利な識別のための視覚的データマイニングフレームワーク ^ ケイム、ダニエル A.;情報視覚化とビジュアルデータマイニング ^ Burch, Michael; Diehl, Stephan; Weißgerber, Peter;ソフトウェアアーカイブにおけるビジュアルデータマイニング ^ Pachet, François; Westermann, Gert; Laigre, Damien; Musical Data Mining for Electronic Music Distribution Archived 2014-03-27 at the Wayback Machine 、第1回WedelMusicカンファレンス議事録、フィレンツェ、イタリア、2001年、pp. 101–106。 ^ 政府監査院、「データマイニング:国土安全保障省の主要プログラムの開発においてプライバシーに早期に注意を払うことでリスクを軽減できる」 、GAO-07-293(2007年2月)、ワシントンD.C. ^ セキュアフライトプログラムレポート 、NBCニュース^ 「Total/Terrorism Information Awareness (TIA): Is It Truly Dead?」 電子 フロンティア財団 (公式サイト) 2003年。 2009年3月25日時点の オリジナル よりアーカイブ。 2009年3月15日 閲覧 。 ^ アグラワル、ラケシュ;マニラ、ヘイキ。スリカント、ラーマクリシュナン。トイボネン、ハンヌ。ヴェルカモ、A. インケリ。関連ルールの高速発見 、『知識発見とデータ マイニングの進歩』 、MIT Press、1996 年、307 ~ 328 ページ ^ a b 全米研究会議「テロリストとの闘いにおける個人のプライバシーの保護:プログラム評価の枠組み 」ワシントンD.C.:全米アカデミー出版、2008年 ^ハーグ, スティーブン ; カミングス, メイヴ; フィリップス, エイミー (2006). 『情報化時代の経営情報システム』 トロント: マグロウヒル・ライアソン社. p. 28. ISBN 978-0-07-095569-1 . OCLC 63194770 .^ Ghanem, Moustafa; Guo, Yike; Rowe, Anthony; Wendel, Patrick (2002). 「高スループット情報科学のためのグリッドベースの知識発見サービス」. Proceedings 11th IEEE International Symposium on High Performance Distributed Computing . p. 416. doi : 10.1109/HPDC.2002.1029946 . ISBN 978-0-7695-1686-8 . S2CID 28782519 .^ Ghanem, Moustafa; Curcin, Vasa; Wendel, Patrick; Guo, Yike (2009). 「Discovery Netにおける分析ワークフローの構築と利用」. グリッドコンピューティング環境におけるデータマイニング技術 . p. 119. doi : 10.1002/9780470699904.ch8 . ISBN 9780470699904 。^ Cannataro, Mario; Talia, Domenico (2003年1月). 「ナレッジグリッド:分散型ナレッジ発見のためのアーキテクチャ」 (PDF) . Communications of the ACM . 46 (1): 89– 93. doi : 10.1145/602421.602425 . S2CID 8709194. 2011年11月10日時点の オリジナル (PDF) からのアーカイブ。 2011年 10月17日 閲覧 。 ^ Talia, Domenico; Trunfio, Paolo (2010年7月). 「分散データマイニングタスクが知識サービスとして発展する方法」 (PDF) . Communications of the ACM . 53 (7): 132– 137. CiteSeerX 10.1.1.378.2206 . doi : 10.1145/1785414.1785451 . S2CID 14713292. 2011年10月27日時点の オリジナル (PDF) からのアーカイブ。 2011年 10月17日 閲覧 。
外部リンク