不確かなデータ

コンピュータサイエンスでは不確実なデータとは、正しい、意図された、または元の値から逸脱させるノイズを含んだデータです。ビッグデータの時代では、不確実性やデータの真偽性はデータを定義する特性の 1 つです。データは、量、種類、速度、不確実性 (1/真偽性) の点で常に増加しています。不確実なデータは現在、Web、センサーネットワーク、企業内の構造化ソースと非構造化ソースの両方に豊富に存在します。たとえば、企業のデータセット内の顧客の住所や、センサーの老朽化によりセンサーが取得した温度測定値に不確実性がある場合があります。2012 年に IBM は、世界を変えるような重要で破壊的なテクノロジーを特定するために 3 年から 10 年先を見据えた包括的な分析を提示したグローバルテクノロジー展望レポート[1]、大規模な不確実データの管理を呼びかけました。現実世界のデータに基づいて自信を持ってビジネス上の意思決定を行うためには、膨大な量のデータに存在するさまざまな種類の不確実性を分析で考慮に入れる必要があります。不確実なデータに基づく分析は、その後の意思決定の質に影響を与えるため、この不確実なデータの不正確さの程度と種類を無視することはできません。

不確実なデータは、センサーネットワークの分野、ソーシャルメディア、ウェブ、企業内などノイズの多いテキストが大量に存在する分野(構造化データと非構造化データが古く、時代遅れ、あるいは明らかに不正確である可能性がある)や、数学モデルが実際のプロセスの近似値に過ぎない可能性があるモデリングの分野などに存在します。このようなデータをデータベースで表現する際には、適切な不確実なデータベースモデルを選択する必要があります。

不確実なデータのためのデータモデルの例

不確実なデータを表現する方法の一つは、確率分布を用いることです。リレーショナルデータベースを例に挙げてみましょう。このようなデータベースモデルにおいて、不確実性を確率分布として表現する方法は主に3つあります

属性の不確実性では、タプル内の各不確実な属性は、それぞれ独立した確率分布に従います。[2]たとえば、温度と風速の測定値を取得すると、一方の測定値がわかってももう一方の測定値に関する情報は得られないため、それぞれの測定値は独自の確率分布によって記述されます。

相関のある不確実性においては、複数の属性が結合確率分布によって記述される場合がある[2]例えば、物体の位置を読み取り、x座標とy座標を保存した場合、異なる値の確率は記録された座標からの距離に依存する可能性がある。距離は両方の座標に依存するため、これらの座標は独立ではないため、結合分布を使用することが適切である可能性がある

タプル不確実性では、タプルのすべての属性は結合確率分布に従います。これは相関不確実性の場合をカバーしますが、タプルが関連する関係に属さない確率がある場合も含みます。これは、すべての確率の合計が1にならないことで示されます。[2]例えば、確率データベースから次のタプルがあるとします

(a, 0.4)| (b, 0.5)

そうすると、タプルがデータベースに存在しない可能性が 10% あります。

参考文献

  1. ^ グローバルテクノロジーアウトルック(PDF) (レポート). 2012年.
  2. ^ abc Prabhakar, Sunil. 「ORION: 不確実な(センサー)データの管理」(PDF) .コンピュータサイエンス. 2011年7月20日時点のオリジナル(PDF)からアーカイブ。 2008年9月29日閲覧
  • Habich Volk、Clemens Utzny、Ralf Dittmann、Wolfgang Lehner。「不正確な測定値のエラーを考慮した密度ベースクラスタリング」第7回IEEE国際データマイニング会議ワークショップ、2007年。ICDMワークショップ2007。IEEE
  • Volk Rosentahl、Martin Hahmann、Dirk Habich、Wolfgang Lehner。「不確実なデータと可能世界のクラスタリング」。2009年、第25回国際データエンジニアリング会議に併催された第1回不確実なデータの管理とマイニングに関するワークショップ議事録。IEEE。
「https://en.wikipedia.org/w/index.php?title=Uncertain_data&oldid=1303024645」より取得