構造マイニング

半構造化データセットからの情報の検索と抽出

構造マイニングまたは構造化データマイニングは、半構造化データセットから有用な情報を見つけて抽出するプロセスです。グラフマイニング、シーケンシャルパターンマイニング分子マイニングは構造化データマイニングの特殊なケースです[要出典]

説明

半構造化データの利用の増加は、従来は表形式のデータセットを対象としてきたデータマイニングに新たな機会をもたらしました。これは、データマイニングリレーショナルデータベースの強い関連性を反映しています。世界中の興味深くマイニング可能なデータの多くは、リレーショナルデータベースに簡単には組み込めません。しかし、ソフトウェアエンジニアの世代は、これがデータを処理する唯一の方法であると信じるように訓練されており、データマイニングアルゴリズムは一般的に表形式のデータのみを扱うために開発されてきました

XMLは半構造化データを表現する最も一般的な方法であり、表形式データと任意のツリーの両方を表現できます。2つのアプリケーション間で交換される XML によるデータの特定の表現は、通常、XSDで記述されるスキーマによって記述されます。このようなスキーマの実例、例えばNewsML は、通常非常に洗練されており、特殊なケースのデータを表現するために使用される複数のオプションのサブツリーを含んでいます。多くの場合、スキーマの約90%は、これらのオプションのデータ項目とサブツリーの定義に関係しています。

したがって、XML を使用して送信またはエンコードされ、同じスキーマに準拠しているメッセージとデータには、送信される内容に応じて非常に異なるデータが含まれる可能性があります。

このようなデータは、従来のデータマイニングにとって大きな問題となります。同じスキーマに準拠する2つのメッセージは、共通するデータがほとんどない可能性があります。このようなデータからトレーニングセットを構築する場合、従来のデータマイニング用に表形式のデータとしてフォーマットしようとすると、表の大部分が空になるか、空になる可能性があります。

ほとんどのデータマイニング アルゴリズムの設計では、提示されるデータが完全であるという暗黙の仮定がなされています。もう 1 つの要件は、教師ありか教師なしかに関係なく、実際に採用されるマイニング アルゴリズムがスパース データを処理できなければならないということです。つまり、機械学習アルゴリズムは、情報の一部しか提供されていない不完全なデータ セットではパフォーマンスが低下します。たとえば、ニューラル ネットワークに基づく方法[引用が必要]Ross QuinlanID3 アルゴリズム[引用が必要]は、問題を適切に代表するサンプルでは非常に正確ですが、偏ったデータではパフォーマンスが低下します。ほとんどの場合、入力と出力をより注意深く偏りなく表現した、より優れたモデル提示で十分です。適切な構造とモデルを見つけることが重要な問題となる特に関連性の高い分野は、テキスト マイニングです。

XPathは、XML内のノードやデータ項目を参照するために使用される標準的なメカニズムです。これは、オペレーティングシステムのユーザーインターフェースで使用されるディレクトリ階層をナビゲートするための標準的な手法と類似しています。あらゆる形式のXMLデータをデータマイニングおよび構造マイニングするには、従来のデータマイニングに少なくとも2つの拡張機能が必要です。それは、XPathステートメントを任意のデータパターンに関連付け、サブステートメントをデータパターン内の各データノードに関連付ける機能と、ドキュメント内の任意のノードまたはノードセットの存在と数をマイニングする機能です。

例えば、家系図をXMLで表現する場合、これらの拡張機能を用いることで、ツリー内の全ての個人ノード、氏名や死亡時の年齢といったデータ項目、そして子供の数といった関連ノードの数を含むデータセットを作成できます。より高度な検索を行うことで、祖父母の寿命といったデータを抽出することも可能です。

ドキュメントまたはメッセージの構造に関連するこれらのデータ タイプを追加すると、構造マイニングが容易になります。

参照

参考文献

  • アンドリュー・N・エドモンズ、「XMLにおけるツリー構造データのデータマイニングについて」、データマイニングUKカンファレンス、ノッティンガム大学、2003年8月
  • ガスフィールド、D.、文字列、木、シーケンスのアルゴリズム:コンピュータサイエンスと計算生物学、ケンブリッジ大学出版局、1997年。ISBN 0-521-58519-8
  • RO Duda 、 PE Hart、DG Stork著、『パターン分類』、John Wiley & Sons、2001年。ISBN 0-471-05669-3
  • F. ハジック、H. タン、TS ディロン著、『複雑な構造を持つデータのマイニング』、シュプリンガー、2010。ISBN 978-3-642-17556-5
  • 第5回グラフマイニングと学習に関する国際ワークショップ、フィレンツェ、2007年8月1日~3日
Retrieved from "https://en.wikipedia.org/w/index.php?title=Structure_mining&oldid=1285857217"