高性能統合仮想環境

高性能統合仮想環境（HIVE）は、次世代シーケンシング（NGS）データ、前臨床、臨床、市販後データ、有害事象、メタゲノムデータなどの分析を含む、医療ITおよび生物学研究に使用される分散コンピューティング環境です。 ^[¹^] 現在、米国食品医薬品局（政府領域）、ジョージ・ワシントン大学（学術領域）、DNA-HIVE、WHISE-Global、Embleema（商用領域）によってサポートされ、継続的に開発されています。 HIVEは現在、米国FDA内で完全に機能して動作しており、多種多様な（60以上）規制研究および規制レビュープロジェクトをサポートしているほか、MDEpiNet医療機器市販後レジストリをサポートしています。学術的なHIVEの展開は、NGS分析、がん研究、マイクロバイオーム研究の研究活動や出版、およびジョージ・ワシントン大学の学生向け教育プログラムに使用されています。営利企業は、腫瘍学、微生物学、ワクチン製造、遺伝子編集、医療IT、リアルワールドデータの調和、前臨床研究および臨床試験にHIVEを使用しています。

インフラストラクチャー

HIVE は、分散ストレージライブラリと分散計算エンジンがシームレスにリンクされた超並列分散コンピューティング環境です。 ^{[ 2 ]}このシステムは、ストレージとメタデータデータベースの両方を同じネットワーク上で管理しているため、堅牢で柔軟性があります。 ^{[ 3 ]}ソフトウェアの分散ストレージ層は、ファイルおよびアーカイブ管理の主要コンポーネントであり、デポジションパイプラインのバックボーンです。データデポジションバックエンドでは、外部データセットを HIVE データリポジトリに自動的にアップロードおよびダウンロードできます。メタデータデータベースを使用すると、システムに取り込まれた非常に大きなファイル (ビッグデータ) に関する特定の情報や、システムで実行される計算に関連するメタデータを維持できます。このメタデータにより、将来、実験を検証または再現するために、計算パイプラインの詳細を簡単に呼び出すことができます。メタデータは計算に関連付けられているため、システム内のあらゆる計算のパラメータが格納され、手動での記録保持が不要になります。

HIVEが他のオブジェクト指向データベースと異なる点は、HIVEがあらゆる種類のデータを検索、表示、操作するための統合APIセットを実装していることです。また、このシステムは高度に安全な階層型アクセス制御および権限システムを備えており、セキュリティサブシステムに多数のルールを作成することなく、データアクセス権限をきめ細かく決定できます。機密データ向けに設計されたこのセキュリティモデルは、HIVEがFISMA Moderateシステムに指定されている要件に準拠した包括的な制御および監査機能を提供します。^{[ 4 ]}

HIVEの技術力

データ取得：HIVEは、ローカル、クラウドベース、ネットワークストレージ、シーケンシング機器、HTTP、FTP、SFTPリポジトリなど、様々なソースからデータを取得できます。さらに、HIVEはNIH/NCBIなどの既存の大規模データプラットフォームとの高度なハンドシェイクプロトコルを実装しており、大量のリファレンスゲノムデータやシーケンスリードデータをユーザーに代わって簡単かつ正確にダウンロードできます。
データウェアハウス：HIVEハニカムデータモデルは、科学的なデータ型の複雑な階層構造に対応するために特別に開発され、オブジェクト指向データモデルの枠組みの中でデータの標準化と来歴管理のためのプラットフォームを提供します。統合データエンジンであるハニカムを使用することで、HIVEは生物医学計算の信頼性向上に貢献し、生物計算プロセスの再現性と調和性を確保します。
セキュリティ：HIVE-honeycombは階層型セキュリティ制御システムを採用しており、多数のルールを適用してセキュリティサブシステムに過負荷をかけることなく、アクセス権限を非常にきめ細かく設定できます。PII（個人情報）のオンザフライ暗号化/復号化を提供し、FISMA（金融情報セキュリティ管理法）の規制対象となる中程度の環境で運用が認可されたシステムに求められる最高レベルのセキュリティプロトコルに準拠しています。

統合: HIVE は、あらゆる種類のデータと計算を検索、編集、表示、保護、共有、および操作するための統合アプリケーションプログラムインターフェイス (API) を提供します。インテグレータープラットフォームとして、HIVE は開発者に、汎用適応フレームワークを使用して既存のほぼすべてのオープンソースまたは商用ツール (C/C++、Python、Perl、JavaScript、R) を開発し、コマンドラインツールを統合する手段を提供します。さらに、セッション制御の Web API は、リモートユーザーに代わって HIVE がデータ品質管理と複雑な計算を実行するように制御する手段を提供します。現在、HIVE では数十のビッグデータ分析ツールが稼働しており、さらに数十のツールが開発中です。これには、細菌、ウイルス、ヒトの生殖系列および体細胞プロファイル、準種、感染症、病原体を研究するための、DNA シーケンシング、RNA シーケンシング、トランスポゾンシーケンシング、チップシーケンシング、免疫シーケンシング、デノボアセンブリ、集団ゲノミクスメタゲノムシーケンシング、差分プロファイリング、統計、分類、クラスター化ユーティリティなどが含まれますが、これらに限定されません。
計算：多くの仮想コンピューティング環境とは異なり、HIVEはプロセスではなくサービスを仮想化します。ハードウェア、ソフトウェア、そしてユーザーが要求する計算タスクの間に、特定の要素に依存しない抽象化レイヤーを導入することで、計算をサービスとして提供します。データをコンピューティングコアに移動するのではなく、データの近くに計算を再配置するというこの革新的なパラダイムは、ネットワークインフラストラクチャを介したタスクとデータの最適なフローの鍵となることが証明されています。
可視化：HIVEは、データ駆動型ドキュメントのコンテキストにおいて、HTML5、SVG、D3JSなどのテクノロジーを活用した、数多くの科学的可視化コンポーネントを提供しています。ネイティブデータ、メタデータ、そして計算結果はJSONやCSVベースの通信プロトコルで提供され、インタラクティブでユーザー主導型のカスタマイズ可能なツールを生成することで、バイオインフォマティシャンはWebブラウザのみでテラバイト単位の大規模データを操作できます。

HIVEオープンソース

FDA は、NGS 分析のエンドツーエンドのニーズをサポートするプラットフォームとして HIVE Open Source を立ち上げました。https ://github.com/FDA/fda-hive

HIVEバイオコンピューティング調和プラットフォームは、規制科学のためのハイスループットシーケンシング計算標準（HTS-CSRS）プロジェクトの中核を担っています。その使命は、科学コミュニティにバイオコンピューティングの調和、相互運用性の促進、バイオインフォマティクスプロトコルの検証のためのフレームワークを提供することです（https://hive.biochemistry.gwu.edu/htscsrs ）。詳細については、FDAの外部研究ページ（ [1]）のプロジェクト説明をご覧ください。

HIVEアーキテクチャ

ハードウェアアーキテクチャ：HIVEの中核には、少数の冗長化された重要コンポーネントとスケーラブルなコンピューティングユニットおよびストレージユニットで構成される堅牢なバックボーンハードウェアが存在します。右の図は、このようなHIVEクラスタの接続性とコンポーネントの割り当てを示しています。HIVEクラウドの重要な機能を提供するコアコンポーネントには、以下が含まれます。
- ウェブポータル機能をサポートするために、ハイエンドの安全なファイアウォールを介して外部に面しているウェブサーバー。
- クラウドサーバーは、複雑なキューイングと優先順位付けのスキーマを通じて分散ストレージと計算ワークフローを調整する中核的な機能ユニットです。
- 高可用性ドローンハードウェアは、科学的な視覚化とユーザーインターフェイスサポート機能のための計算ユニットとして機能します。
- 超高速のプロセス間通信ストレージユニットは、分散計算、データ交換、ステージングアリーナを整理します。
- スイッチとファイアウォールハードウェアは、HIVE クラウドの安全で高性能なネットワーク環境を構築します。
- 各永久ストレージユニットは、数百テラバイトの NGS データと参照ゲノムを保存するほか、計算結果と個人のユーザーファイルを保存するように設計されています。

スケーラブルで高性能かつ高密度なコンピューティングコアのサブクラスターは、NGSアルゴリズムの超大規模分散並列計算のための強力なパワーハウスとして機能します。システムは非常にスケーラブルで、単一のHIVE in a boxアプライアンスから数千のコンピューティングユニットを備えた大規模なエンタープライズレベルのシステムまで、幅広い導入インスタンスに対応しています。

ソフトウェアアーキテクチャ: HIVE ソフトウェアインフラストラクチャは、段階的に機能を提供するレイヤーで構成されています。

- カーネルバックボーン層は、異種のハードウェアおよびオペレーティングシステムプラットフォームとの統合を提供します。
- HIVE クラウドバックボーンは、分散ストレージ、セキュリティ、コンピューティング環境をサポートします。
- サイエンスバックボーンは、化学、生物学、統計、その他の純粋に科学的な概念のためのさまざまな科学的計算、数学的装置を実行するための低レベルの科学ライブラリのセットを表します。
- CGI および Java スクリプトレイヤーは、Web ポータルおよび Web アプリケーションの互換性レイヤーを提供します。
- 低レベルライブラリは、ツールやユーティリティを開発するためのアプリケーションプログラミングインターフェイス (API) を提供します。
- 統合アプリは主要なNGSツールの武器庫を提供する
- WebアプリとHIVEポータルはWebポータル機能を提供します

公開プレゼンテーション

ヴァハン・シモニャン博士とラジャ・マズムダー博士は、NIHフロンティア・イン・データサイエンス^{[ 5 ]}で、HIVEが研究と規制分析の橋渡しとして機能することについて発表しました。^{[ 6 ]}^{[ 7 ]} シモニャンは、2014年のバイオITワールドエキスポでもこのトピックについて発表しました。^{[ 8 ]}
HIVEについてはFedScoopでもさらに議論されました。^{[ 9 ]}
FDAのマルチオミクスコンピューティングアーキテクチャHIVEの内部、BioIT World。^{[ 10 ]}

参考文献

^ Simonyan, Vahan; Mazumder, Raja (2014). 「ビッグデータ分析のための高性能統合仮想環境（HIVE）ツールとアプリケーション」 . Genes . 5 ( 4): 957–81 . doi : 10.3390/genes5040957 . PMC 4276921. PMID 25271953 .
^ https://hive.biochemistry.gwu.edu/help/HIVEWhitePaper_12_16_2014.pdf
^ https://hive.biochemistry.gwu.edu/help/HIVEInfrastructuresUK.pdf
^ Wilson, CA; Simonyan, V. (2014). 「FDAによる『次世代』シーケンシング技術の規制適用支援活動」. PDA Journal of Pharmaceutical Science and Technology . 68 (6): 626–30 . doi : 10.5731/pdajpst.2014.01024 . PMID 25475637. S2CID 37583755 .
^ 「NIHログインユーザー名とパスワードまたはPIVカード認証」。2016年1月1日時点のオリジナルよりアーカイブ。 2016年2月1日閲覧。
^ 「NIH VideoCast - 高性能統合仮想環境（HIVE）：規制NGSデータ分析プラットフォーム」 2016年1月29日。
^ 「NIHログインユーザー名とパスワードまたはPIVカード認証」。2016年1月1日時点のオリジナルよりアーカイブ。 2016年2月1日閲覧。
^スタッフ (2014). 「2014-BIT-Brochure」 (PDF) . 2014 Bio-IT World Expo . Cambridge Healthtech Institute. p. 6 (col 2) . 2016年6月15日閲覧. (タイトル) ビッグデータ分析のための高性能統合仮想環境 (HIVE) インフラストラクチャ：次世代シーケンシング・インフォマティクスへの応用
^ http://fedscoop.com/fdas-examines-nextgen-sequencing-too l
^ 「バイオITワールド」。

外部リンク

HIVE のパブリックバージョンはhttps://hive.biochemistry.gwu.edu/dna.cgi?cmd=aboutにあります。

[1] Simonyan, Vahan; Mazumder, Raja (2014). 「ビッグデータ分析のための高性能統合仮想環境（HIVE）ツールとアプリケーション」 . Genes . 5 ( 4): 957–81 . doi : 10.3390/genes5040957 . PMC 4276921. PMID 25271953 .

[2] ttps://hive.biochemistry.gwu.edu/help/HIVEWhitePaper_12_16_2014.pdf

[3] ttps://hive.biochemistry.gwu.edu/help/HIVEInfrastructuresUK.pdf

[4] Wilson, CA; Simonyan, V. (2014). 「FDAによる『次世代』シーケンシング技術の規制適用支援活動」. PDA Journal of Pharmaceutical Science and Technology . 68 (6): 626–30 . doi : 10.5731/pdajpst.2014.01024 . PMID 25475637. S2CID 37583755 .

[5] 「NIHログインユーザー名とパスワードまたはPIVカード認証」。2016年1月1日時点のオリジナルよりアーカイブ。 2016年2月1日閲覧。

[6] 「NIH VideoCast - 高性能統合仮想環境（HIVE）：規制NGSデータ分析プラットフォーム」 2016年1月29日。

[7] 「NIHログインユーザー名とパスワードまたはPIVカード認証」。2016年1月1日時点のオリジナルよりアーカイブ。 2016年2月1日閲覧。

[8] スタッフ (2014). 「2014-BIT-Brochure」 (PDF) . 2014 Bio-IT World Expo . Cambridge Healthtech Institute. p. 6 (col 2) . 2016年6月15日閲覧. (タイトル) ビッグデータ分析のための高性能統合仮想環境 (HIVE) インフラストラクチャ：次世代シーケンシング・インフォマティクスへの応用

[9] ttp://fedscoop.com/fdas-examines-nextgen-sequencing-too l

[10] 「バイオITワールド」。

[

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]