
NEC SX-Aurora TSUBASAは、 NEC SXアーキテクチャ・ファミリのベクトル・プロセッサです。[ 1 ] [ 2 ]従来のSXスーパーコンピュータとは異なり、SX-Aurora TSUBASAはPCIeカードとして提供され、NECでは「ベクトル・エンジン」(VE)と呼んでいます。[ 2 ] 8枚のVEカードをベクトル・ホスト(VH)に挿入できます。VHは通常、Linuxオペレーティングシステムを実行するx86-64サーバーです。 [ 2 ]この製品は2017年10月25日のプレスリリースで発表され、NECは2018年2月に販売を開始しました。[ 3 ]この製品はSX-ACEの後継です。
SX-Aurora TSUBASAは、地球シミュレータのベースとなるベクトル型コンピュータシステムであるNEC SXシリーズおよびSUPER-UXの後継機種です。ハードウェアは、PCI Express (PCIe)インターコネクトを介して接続されたベクトルエンジン(VE)を搭載したx86 Linuxホストで構成されています。[ 4 ]
高いメモリ帯域幅(0.75~1.2 TB/s)は、PCIeカードのフォームファクタに実装されたシリコンインターポーザ上の8つのコアと6つのHBM2メモリモジュールから得られます。 [ 5 ] VEのオペレーティングシステム機能はVHにオフロードされ、主にVEOSを実行するユーザー空間デーモンによって処理されます。[ 6 ]
クロック周波数(1.4GHzまたは1.6GHz)に応じて、各VE CPUは8コアを搭載し、倍精度演算で2.15TFLOPSまたは2.45TFLOPSのピーク性能を発揮します 。このプロセッサは、シリコンインターポーザー上に6つのHBM2モジュールを実装した世界初の製品で、合計24GBまたは48GBの高帯域幅メモリを搭載しています。このプロセッサは、x86_64サーバーであるVector Host(VH)によってホストされる標準的なフルレングス、フルハイト、ダブル幅のPCIeカードのフォームファクタに統合されています。このサーバーは最大8つのVEをホストでき、VHは任意のノード数に拡張可能です。[ 1 ] [ 7 ] [ 2 ]
バージョン2ベクトルエンジン[ 8 ]
| SKU | 20A | 20B |
|---|---|---|
| クロック速度(GHz) | 1.6 | 1.6 |
| コア数 | 10 | 8 |
| コアピークパフォーマンス (倍精度GFLOPS) | 307 | 307 |
| コアピークパフォーマンス (単精度GFLOPS) | 614 | 614 |
| CPUピークパフォーマンス (倍精度TFLOPS) | 3.07 | 2.45 |
| CPUピークパフォーマンス (単精度TFLOPS) | 6.14 | 4.91 |
| メモリ帯域幅(TB/秒) | 1.53 | 1.53 |
| メモリ容量(GB) | 48 | 48 |
バージョン1ベクトルエンジン
ベクトルエンジンのバージョン1.0は16nm FinFETプロセス(TSMC製)で製造され、3つのSKUでリリースされました(後続のバージョンでは末尾にEが追加されます)。[ 9 ]
| SKU | 10A | 10B | 10C | 10AE | 10BE | 10CE |
|---|---|---|---|---|---|---|
| クロック速度(GHz) | 1.6 | 1.4 | 1.4 | 1.584 | 1.408 | 1.400 |
| コア数 | 8 | 8 | 8 | 8 | 8 | 8 |
| コアピークパフォーマンス (倍精度GFLOPS) | 307.2 | 268.8 | 268.8 | 304 | 270 | 268 |
| コアピークパフォーマンス (単精度GFLOPS) | 537 | 608 | 540 | 537 | ||
| CPUピークパフォーマンス (倍精度TFLOPS) | 2.45 | 2.15 | 2.15 | 2.43 | 2.16 | 2.15 |
| CPUピークパフォーマンス (単精度TFLOPS) | 4.9 | 4.3 | 4.3 | 4.86 | 4.32 | 4.30 |
| メモリ帯域幅(TB/秒) | 1.2 | 1.2 | 0.75 | 1.35 | 1.35 | 1.00 |
| メモリ容量(GB) | 48 | 48 | 24 | 48 | 48 | 24 |
8つのSX-Auroraコアはそれぞれ64個の論理ベクトルレジスタを持っています。[ 10 ]これらは256 x 64ビット長で、パイプラインと32倍並列SIMDユニットの組み合わせとして実装されています。レジスタは、並列実行可能な3つのFMA浮動小数点乗算および加算ユニット、固定小数点演算を処理する2つのALU算術論理ユニット、および除算と平方根のパイプに接続されています。[ 10 ] FMAユニットと32倍SIMD並列性のみを考慮すると、ベクトルコアは1サイクルあたり192回の倍精度演算が可能です。[ 10 ] 2つの単精度値がベクトルレジスタの1つの倍精度スロットのスペースにロードされる「パック」ベクトル演算では、ベクトルユニットは倍精度と比較して1クロックサイクルあたり2倍の演算を実行します。
スカラー プロセッシング ユニット (SPU) は、各コア上の非ベクトル命令を処理します。
SX-Aurora TSUBASAプロセッサのメモリは、チップ・オン・ウェーハ・オン・サブストレート技術を用いてCPUと同一パッケージに実装された6つの第2世代HBM2高帯域幅メモリモジュールで構成されています。プロセッサモデルに応じて、HBM2モジュールは4または8ダイの3Dモジュールで、それぞれ4GBまたは8GBの容量を備えています。したがって、SX-Aurora CPUは24GBまたは48GBのHBM2メモリを搭載しています。大容量HBM2モジュールを搭載したモデルでは、1.2TB/sのメモリ帯域幅を実現します。[ 11 ]
ベクトルエンジンの各コアは、16MBの「ラストレベルキャッシュ」(LLC)を共有します。これは、ベクトルレジスタとSPUのL2キャッシュに直接接続されたライトバックキャッシュです。LLCのキャッシュラインサイズは128バイトです。LLCにおけるデータ保持の優先順位は、ある程度ソフトウェアで制御可能であり、プログラマはどの変数または配列をキャッシュに保持するかを指定できます。これは、NEC SX-ACEのAdvanced Data Buffer(ADB)に匹敵する機能です。
NECは現在、SX-Aurora TSUBASAベクトルエンジンを4つのプラットフォームに統合して販売している。[ 12 ] [ 9 ]
VHノード内では、VEはPCIeを介して相互通信できます。SX-Auroraで構築された大規模並列システムでは、相互接続としてPeerDirect構成の Infinibandを使用します。
NEC は、SX-Aurora TSUBASA ベクトル エンジンを 5 つのプラットフォームに統合して販売していました。
A500 シリーズのみ水冷も採用しており、それ以外のタイプはすべて空冷式です。
ベクターエンジン(VE)のオペレーティングシステムは「VEOS」と呼ばれ、ホストシステムであるベクターホスト(VH)に完全にオフロードされています。[ 14 ] VEOSはカーネルモジュールとユーザー空間デーモンで構成されています。
VEOSはVE上でマルチタスクをサポートしており、ほぼすべてのLinuxシステムコールがVE libcでサポートされています。[ 15 ]オペレーティングシステムサービスをVHにオフロードすると、レイテンシが増加する代わりに、OSジッターがVEからシフトされます。[ 15 ]すべてのVEオペレーティングシステム関連パッケージは、 GNU General Public Licenseの下でライセンスされており、 github
NECは開発者および顧客向けにソフトウェア開発キットを提供しています。SDKには独自の製品が含まれており、NECからご購入いただく必要があります。SDKには以下のものが含まれています。
NEC MPIも独自の実装であり、MPI-3.1標準仕様に準拠しています。[ 19 ]
VEオフロードC-APIを使用することで、VEを特定のホストカーネル関数のアクセラレータとして使用するハイブリッドプログラムを作成できます。[ 20 ] VEオフロードはある程度OpenCLやCUDAに匹敵しますが、よりシンプルなAPIを提供し、カーネルを通常のC、C++、またはFortranで開発してVE上のほぼすべてのシステムコールを使用できるようにします。VEOへのPythonバインディングはgithub.com/SX-Aurora/py-veoで入手でき
| NLC 1 | MKL | CUDA | ||
|---|---|---|---|---|
| 線形代数 | 密行列 | ✓ | ✓ | ✓ |
| スパース行列 | ✓ | ✓ | ✓ | |
| 関数変換 | フーリエ | ✓ | ✓ | ✓ |
| 実数対実数(DCT、…) | ✓ | ✓ | ||
| ラプラス、ウェーブレット、… | ✓ | |||
| 統計 | 乱数ジェネレータ | ✓ | ✓ MPIなし | ✓ MPIなし |
| 多変量、回帰、… | ✓ | |||
| 他の | ソート | ✓ | ||
| 特殊機能 | ✓ | |||
| 積分、微分、… | ✓ | |||
| ステンシルコード | ✓ | |||
| ディープラーニング | ✗(予定) | ✓ | ✓ |
1 NEC 数値ライブラリコレクションは、数値シミュレーションプログラムの開発をサポートする数学ライブラリのコレクションです。
{{citation}}: CS1 maint: ISBNによる作業パラメータ(リンク)