Zarr(データ形式)

多次元配列の保存形式
ザール
ファイル名拡張子
.zarr
最新リリース
3
フォーマットの種類多次元配列
オープンフォーマット?はい
フリーフォーマット?はい
Webサイトzarr.dev

Zarrは、大規模な多次元配列データを格納するためのオープンスタンダードです。プロトコルとデータ形式を規定し、データをチャンクと呼ばれるサブセットに分割することで、ランダムアクセスを含む「クラウド対応」となるように設計されています。 [1] [2] Zarrは、 PythonJavaJavaScriptC++RustJuliaなど、多くのプログラミング言語で使用できます。[3] GoogleMicrosoft などの組織では、大規模なデータセットを公開するために使用されています。[4] [5] Zarrの初期バージョンは、2015年にAlistair Milesによって初めてリリースされました。[6] [7]

Zarrは、クラウドコンピューティングにおいて一般的な要件である、異なるストレージシステム間での高スループット分散I/Oをサポートするように設計されています。Zarrアレイに対して、複数の読み取り操作を並列に、または複数の書き込み操作を並列に効率的に実行できます。[8]

フォーマットの説明

Zarr のチャンク化データ形式の図。

Zarrの主なデータ形式は多次元配列です。並列アクセスを可能にするため、これらの配列はいわゆる「チャンク」のグリッドとして保存およびアクセスされます。ディスク上の実際のデータ形式は、ユーザーが選択した圧縮プラグインとストレージプラグインによって異なります。[8]

Zarrの設計はHDF5の影響を受けておりメタデータとグループ化に関して同様の機能が含まれています。配列は名前付き階層にグループ化することができ、配列と一緒に保存されたキー値メタデータで注釈を付けることもできます。 [8]

アプリケーション

OME-Zarr を使用したハイコンテンツ スクリーニングの顕微鏡データの表現。

Zarrはテンソルを効率的に処理できるため、気象データや衛星データ[9]、エネルギーデータ[10]などの 公開に使用されています。

顕微鏡検査などのバイオイメージング向けに、Open Microscopy Environment(OME)と呼ばれるコンソーシアムが、Zarrをベースに分野固有の拡張機能を備えた「OME-Zarr」と呼ばれるフォーマットを作成しました。[11] .zarr仕様は、ハイコンテントスクリーニングアッセイ などの複雑な実験の出力をきめ細かく表現することを可能にします。顕微鏡で読み取られる各プレートには複数のウェルが含まれており、各ウェルをスキャンするには複数のフィールドが必要です。各画像は最大5次元(時点、イメージングチャネル、3つの空間次元)を持つことができます。また、解像度ピラ​​ミッドを含めることも可能で、視覚化ツールのパフォーマンスを向上させます。Zarrはデータを整理するために複数のディレクトリを使用するため、これらの異なるフィールドはそれぞれ個別に指定および取得できます。例えば、オブジェクトストレージデータベースからカスタムURLを取得するなどです。[11]

参照

参考文献

  1. ^ 「Zarr - チャンク化された圧縮されたN次元配列」zarr.dev . 2024年9月12日閲覧
  2. ^ 「クラウド最適化地理空間フォーマットガイド:Zarr」. guide.cloudnativegeo.org . 2024年9月12日閲覧
  3. ^ 「Zarr実装」zarr.dev . 2025年1月9日閲覧
  4. ^ 「Google Cloud: ERA5 データ」. cloud.google.com . 2024年9月12日閲覧
  5. ^ 「Microsoft Planetary Computer: Zarrデータの読み取り」. planetarycomputer.microsoft.com . 2024年9月12日閲覧。
  6. ^ "zarr - PyPI" . 2025年2月10日閲覧。
  7. ^ Alistair Miles (2016年4月14日). 「HDF5以降へ」 . 2025年2月10日閲覧
  8. ^ abc 「ザール - チュートリアル」. zarr.readthedocs.io 2024 年 9 月 12 日に取得
  9. ^ 「遅延読み込み:膨大な気象・衛星データへのアクセスを容易に」openclimatefix.org . 2024年9月12日時点のオリジナルよりアーカイブ。 2024年9月12日閲覧
  10. ^ Sansal, Altay; Kainkaryam, Sribharath; Lasscock, Ben; Valenciano, Alejandro (2023). 「MDIO: 多次元エネルギーデータのためのオープンソースフォーマット」. The Leading Edge . 42 (7). Society of Exploration Geophysicists: 465– 473. Bibcode :2023LeaEd..42..465S. doi :10.1190/tle42070465.1. ISSN  1938-3789.
  11. ^ ab Moore, Josh (2023). 「OME-Zarr:国際コミュニティのサポートを受けたクラウド最適化バイオイメージングファイルフォーマット」.組織化学と細胞生物学. 160 (3). Springer Science and Business Media LLC: 223– 251. doi :10.1007/s00418-023-02209-1. hdl : 1721.1/151126 . ISSN  1432-119X. PMC 10492740. PMID 37428210  .  
  • 公式サイト


「https://en.wikipedia.org/w/index.php?title=Zarr_(data_format)&oldid=1312753647」から取得