機械生成データとは、人間の積極的な介入なしに、コンピュータプロセス、アプリケーション、またはその他のメカニズムによって自動的に生成される情報です。この用語は50年以上前に遡りますが、 [ 1 ]現在、その範囲については明確な定義が定まっていません。モナッシュ研究所のカート・モナッシュは、これを「完全に機械によって生成されたデータ、または人間の選択を記録するよりも、人間を観察することに重点を置いているデータ」と定義しています。[ 2 ] 一方、イェール大学のコンピューターサイエンス教授であるダニエル・アバディは、より狭い定義を提案しています。「機械生成データとは、独立した計算主体の判断の結果として、または人間の行動によって引き起こされないイベントの測定によって生成されるデータである」と。[ 3 ]定義の違いにかかわらず、どちらも人間が手動で入力したデータを除外します。[ 4 ]機械生成データはあらゆる産業分野に広がっています。人間は、自分の行動がデータを生み出していることに気づかないことが多くなりつつあります。[ 5 ]
機械生成データには単一の形式はなく、その種類、形式、メタデータ、そして頻度は特定のビジネス目的に応じて異なります。機械は多くの場合、定められたスケジュールに従って、あるいは状態の変化、行動、取引、その他のイベントに応じてデータを生成します。イベントは過去のものであるため、データは更新または変更されにくいです。こうした特性もあって、米国の裁判所は機械生成データを非常に信頼できるものとみなしています。[ 6 ]
機械生成データは、モノのインターネット(IoT)の生命線です。[ 7 ]
2009年、ガートナーは、今後5年間でデータが650%増加すると発表しました。[ 8 ] データの増加の大部分は、機械生成データの副産物です。[ 4 ] IDCは、2020年には接続されるモノの数が人の26倍になると推定しました。[ 9 ] Wikibonは、 2020年にインダストリアルインターネットに5140億ドルが費やされるとの予測を発表しました。[ 10 ]
機械生成データは静的ながらも膨大な量であるため、データ所有者は、生成されたデータセットを処理・分析するために、高度にスケーラブルなツールに依存しています。機械生成データのほとんどは非構造化されていますが、共通の構造に導出されます。[ 4 ] 通常、これらの導出構造には多数のデータポイント/列が含まれます。これらのデータポイントの場合、課題は主にデータの分析にあります。高いパフォーマンス要件と大規模なデータサイズを考慮すると、従来のデータベースのインデックス作成とパーティション分割では、処理対象となるデータセットのサイズと履歴が制限されます。列指向データベースでは、特定の分析時にデータセットの特定の「列」のみにアクセスできるため、 代替アプローチが存在します。