データオプス

データ分析の側面

DataOpsは、データに対する統合的かつプロセス指向の視点と、自動化およびアジャイルソフトウェアエンジニアリングの手法を組み合わせた一連のプラクティス、プロセス、テクノロジーであり、データ分析の分野における品質、スピード、コラボレーションを向上させ、継続的な改善の文化を促進します[1] DataOpsはベストプラクティスのセットとして始まりましたが、現在ではデータ分析に対する新しい独立したアプローチへと成熟しています。[2] DataOpsは、データ準備からレポート作成までのデータライフサイクル全体[3]に適用され、データ分析チームと情報技術運用の相互接続性を認識します。[4]

DataOpsはアジャイル手法を取り入れ、ビジネス目標に合わせて分析開発のサイクルタイムを短縮します。[3]

DevOpsは、オンデマンドのITリソースを活用し、ソフトウェアのテストとデプロイメントを自動化することで、継続的なデリバリーに重点を置いています。ソフトウェア開発とIT運用の融合により、ソフトウェアエンジニアリングとデプロイメントの速度、品質、予測可能性、そしてスケールが向上しました。DevOpsの手法を借用したDataOpsは、データ分析にも同様の改良をもたらすことを目指しています。[4]

DataOpsは、統計的プロセス制御(SPC)を用いてデータ分析パイプラインを監視・制御します。SPCを導入することで、運用システムを流れるデータは常に監視され、正常に動作していることが検証されます。異常が発生した場合は、自動アラートを通じてデータ分析チームに通知されます。[5]

DataOpsは特定のテクノロジー、アーキテクチャ、ツール、言語、フレームワークに縛られるものではありません。DataOpsをサポートするツールは、コラボレーション、オーケストレーション、品質、セキュリティ、アクセス、そして使いやすさを促進します。[6]

歴史

DataOpsは、 InformationWeekの 寄稿編集者であるレニー・リーブマン氏によって、 2014年6月19日にIBM Big Data & Analytics Hubのブログ記事「ビッグデータの成功にDataOpsが不可欠な3つの理由」で初めて紹介されました。 [7] DataOpsという用語は、後にTamrのアンディ・パーマー氏とステフ・ロック氏によって普及しました。[8] [4] DataOpsは「データ運用」の略称です。[3] 2017年は、エコシステムの大幅な発展、アナリストによる取材、キーワード検索、調査、出版物、オープンソースプロジェクトの増加など、DataOpsにとって重要な年でした。[9]ガートナーは、 2018年のデータ管理のハイプサイクルにDataOpsを選出しました。[10]

DevOps、アジャイル、製造業からの DataOps の伝統

目標と哲学

データ量は、2025 年までに 32% の CAGR で増加し、180 ゼタバイトに達すると予測されています (出典: IDC)。[6] DataOps は、この大幅なデータの増加に対処するためのツール、プロセス、組織構造を提供することを目指しています。[6]自動化により、データの事前登録、取り込み、大規模統合データベースの管理が効率化され、データチームはより効率的かつ効果的な方法で新しい分析を開発できるようになります。[11] [4] DataOps は、データ分析の速度、信頼性、および品質の向上を目指しています。[12]データ サイエンティスト、アナリスト、データ/ETL (抽出、変換、ロード) エンジニア、情報技術 (IT) 、品質保証/ガバナンスの間のコミュニケーション、コラボレーション、統合、自動化、測定、協力を重視しています。

実装

ブルーヒルリサーチのトフ・ホイットモアは、情報技術部門向けに次のようなデータオプスのリーダーシップ原則を提案しています。[2]

  • データフローの各段階で進捗状況とパフォーマンスを測定します。可能であれば、データフローのサイクルタイムをベンチマークします。
  • 抽象化されたセマンティックレイヤーのルールを定義します。全員が「同じ言語を話している」ことを確認し、データ(およびメタデータ)が何であるか、何でないかを共有します。
  • 「目視テスト」による検証:継続的な改善を目的とした人間によるフィードバックループを組み込む。消費者はデータを信頼できる必要があり、それは段階的な検証によってのみ実現できる。
  • BI、データ サイエンス、分析など、データ フローの可能な限り多くの段階を自動化します。
  • ベンチマークされたパフォーマンス情報を用いてボトルネックを特定し、それに合わせて最適化します。これには、汎用ハードウェアへの投資や、これまで人間が行っていたプロセス内のデータサイエンスステップの自動化が必要になる場合があります。
  • 双方向のデータ制御、データの所有権、透明性、およびワークフロー全体を通じた包括的なデータ系統の追跡に特に重点を置いて、ガバナンスの規律を確立します。
  • 成長と拡張性を考慮した設計プロセス。データフローモデルは、データの量と種類に対応できるように設計する必要があります。企業のデータ増加に合わせて拡張できるよう、基盤となるテクノロジーの価格設定を適正なものにしてください。

イベント

  • データオプティコン[13]
  • データオペレーションサミット[14]
  • データオペレーションオンラインチャンピオン[15]

参考文献

  1. ^ Ereth, Julian (2018). 「DataOps - 定義に向けて」(PDF) . LWDA 2018 Proceedings : 109.
  2. ^ ab 「DataOps – それは秘密だ」www.datasciencecentral.com . 2017年4月5日閲覧
  3. ^ abc 「DataOps(データ操作)とは? - WhatIs.comからの定義」SearchDataManagement . 2017年4月5日閲覧
  4. ^ abcd 「From DevOps to DataOps, By Andy Palmer - Tamr Inc.」Tamr Inc. 2015年5月7日。2018年7月12日時点のオリジナルよりアーカイブ。 2017年3月21日閲覧
  5. ^ DataKitchen (2017年3月7日). 「データ分析に応用できるリーン製造の秘訣」. Medium . 2017年8月24日閲覧
  6. ^ abc 「DataOpsとは? | Nexla:機械学習時代のためのスケーラブルなデータ運用プラットフォーム」www.nexla.com . 2017年9月7日閲覧
  7. ^ 「ビッグデータの成功にDataOpsが不可欠な3つの理由」IBM Big Data & Analytics Hub . 2018年8月10日時点のオリジナルよりアーカイブ。 2018年8月10日閲覧
  8. ^ Mango Solutions: #DataOps - それは重要なことです(正直に言うと) 、 2021年6月28日閲覧
  9. ^ DataKitchen (2017年12月19日). 「2017年:DataOpsの年」. data-ops . 2018年1月24日閲覧。
  10. ^ 「ガートナーのデータ管理ハイプサイクル、2018年に3つのテクノロジーをイノベーションのトリガーフェーズに位置付ける」ガートナー。 2019年7月19日閲覧
  11. ^ 「2017年のビッグデータを推進する5つのトレンド」CIO Dive . 2017年9月7日閲覧
  12. ^ 「Unravel Data、ビッグデータ向けアプリケーションパフォーマンス管理を強化」データベーストレンド&アプリケーション誌、2017年3月10日。 2017年9月7日閲覧
  13. ^ “DataOpticon - YouTube”. www.youtube.com 2021年6月28日閲覧
  14. ^ “DataOps Summit”. www.dataopssummit-sf.com . 2021年7月2日時点のオリジナルよりアーカイブ。 2021年6月28日閲覧
  15. ^ Intelligence、Corinium Global. 「DataOps Champions Online 2021 | Corinium」. dco-dataops.coriniumintelligence.com . 2021年6月28日閲覧
「https://en.wikipedia.org/w/index.php?title=DataOps&oldid=1316638663」から取得