継続的分析とは、 ETLや複雑なバッチデータパイプラインを廃止し、クラウドネイティブおよびマイクロサービスパラダイムを採用したデータサイエンスプロセスです。継続的データ処理により、より少ないリソースでリアルタイムのインタラクションと即時のインサイト取得が可能になります。
定義
アナリティクスとは、数学と統計をビッグデータに応用することです。データサイエンティストは、需要予測や最適価格設定といったビジネス課題の解決策を見つけるために、アナリティクスプログラムを作成します。継続的なアプローチでは、複数のステートレスエンジンが同時に実行され、データの拡充、集約、推論、そしてデータに基づくアクションが実行されます。データサイエンティスト、ダッシュボード、そしてクライアントアプリはすべて、適切なIDベースのセキュリティ、データマスキング、そしてリアルタイムのバージョン管理によって、同じ生データまたはリアルタイム派生データにアクセスします。
従来、データサイエンティストは、一般的なJavaプログラマーのようにIT開発チームに所属していませんでした。これは、彼らのスキルが、数学、統計、データサイエンスといった、通常はITとは関係のない独自の部門で際立っているためです。したがって、彼らのソフトウェアコード記述アプローチは、従来のプログラミングチームほど効率的ではないと結論付けるのは理にかなっています。特に、従来のプログラミングでは、継続的デリバリーアプローチとアジャイル手法が採用されています。これは、イテレーションと呼ばれる継続的なサイクルでソフトウェアをリリースします。
継続的分析とは、継続的デリバリーソフトウェア開発モデルをビッグデータ分析開発チームに拡張したものです。継続的分析の実践者の目標は、分析コードの作成とビッグデータソフトウェアのインストールを、ユニットテストと機能テストの自動実行、そして自動化ツールを用いた環境システムの構築といったアジャイル開発モデルに組み込む方法を見つけることです。
これを実現するには、データサイエンティストが通常のプログラマーが使用するのと同じコードリポジトリにコードを記述し、ソフトウェアがそこからコードをプルしてビルドプロセスで実行できるようにする必要があります。また、ビッグデータクラスター(仮想マシンのセット)の構成も何らかのリポジトリに保存する必要があります。これにより、分析コードやビッグデータソフトウェア、オブジェクトを、継続的インテグレーションプロセスと同様に自動的に送信できるようになります。[1] [2] [3] [4]
外部リンク
- 継続的な分析
- 開発モデル
参考文献
- ^ 「Continuous Analytics Defined」. Southern Pacific Review . 2016年5月17日閲覧。
- ^ Pushkarev, Stepan. 「データサイエンスとDevOpsの間の壁を取り払う」LinkedIN . 2016年5月17日閲覧。
- ^ “Data Wow”. datawow.io . 2021年1月12日閲覧。
- ^ データサイエンティスト Ricardo Ramon Benitez