コヒーレントアクセラレータプロセッサインターフェース

コヒーレントアクセラレータプロセッサインターフェース
作成年	2014 （2014年）
作成者	IBM;

コヒーレントアクセラレータプロセッサインタフェース（CAPI ）は、大規模データセンターコンピュータで使用するための高速プロセッサ拡張バス規格であり、当初はPCI Expressの上に階層化されるように設計され、中央処理装置（CPU）をグラフィックス処理装置（GPU）、ASIC、FPGA、高速ストレージなどの外部アクセラレータに直接接続します。 ^{[ 1 ]}^{[ 2 ]}異なる命令セットアーキテクチャのデバイス間で、低レイテンシ、高速、直接メモリアクセス接続を提供します。

歴史

1965年に遡るムーアの法則に伝統的に関連付けられてきた性能スケーリングは、IntelのPrescottアーキテクチャとIBMのCellプロセッサがともに4GHzの動作周波数へと向かうにつれ、2004年頃から鈍化し始めました。ここで両プロジェクトは熱スケーリングの壁に突き当たり、動作周波数のさらなる向上に伴う熱除去の問題が、サイクルタイムの短縮によるメリットを大きく上回りました。

その後の 10 年間で、4 GHz を超える商用 CPU 製品はほとんどなくなり、パフォーマンスの向上の大部分は、段階的に改善されたマイクロアーキテクチャ、より優れたシステム統合、およびより高いコンピューティング密度によってもたらされるようになりました。これは主に、ピーク動作周波数を犠牲にして、同じダイ上に多数の独立したコアを詰め込むという形で実現されています (2016 年 6 月の Intel の 24 コア Xeon E7-8890 は、シングルソケット 165 W の消費電力と冷却予算の制約内で動作するために、ベース動作周波数はわずか 2.2 GHz です)。

大幅なパフォーマンス向上が実現された場合、それはプロセッサダイに追加されたGPUユニットや、外付けのGPUまたはFPGAベースのアクセラレータなど、より特化したコンピューティングユニットと関連付けられることが多かった。多くのアプリケーションにおいて、アクセラレータはインターコネクトのパフォーマンス（帯域幅とレイテンシ）の限界、あるいはインターコネクトのアーキテクチャに起因する限界（メモリの一貫性の欠如など）に悩まされている。特にデータセンターにおいては、ハードウェアが特定のコンピューティングワークロードに合わせてカスタマイズされるヘテロジニアスアーキテクチャへの移行において、インターコネクトの改善が極めて重要になった。

CAPIは、コンピュータが専用のアクセラレータをより容易かつ効率的に接続できるようにするために開発されました。ディープニューラルネットワークの行列乗算など、メモリ集約型および計算集約型の作業をCAPI対応プラットフォームにオフロードできます。^[³^]これは、2014年に市場に投入されたIBMのPOWER8ベースのシステムで使用するために設計されました。同時に、IBMと他の数社は、 CAPIを含むPowerベースのテクノロジーを中心としたエコシステムを構築するために、OpenPOWER Foundationを設立しました。 2016年10月、複数のOpenPOWERパートナーが、 GPUおよびCPU設計者のAMD、システム設計者のDell EMCおよびHewlett Packard EnterpriseとともにOpenCAPIコンソーシアムを設立し、OpenPOWERとIBMの範囲を超えてテクノロジーを普及させました。^[⁴^]

2022年8月1日、OpenCAPIの仕様と資産はCompute Express Link（CXL）コンソーシアムに移管されました。^{[ 5 ]}

実装

キャピ

CAPIはCPU内部の機能ユニットとして実装されており、コヒーレントアクセラレータプロセッサプロキシ（CAPP）と呼ばれます。アクセラレータ上には、対応するユニットとしてパワーサービスレイヤー（PSL）が存在します。CAPPとPSLはキャッシュディレクトリのように機能し、接続されたデバイスとCPUは同じコヒーレントメモリ空間を共有できます。また、アクセラレータはCPUに統合された他の機能ユニットと同等のアクセラレータ機能ユニット（AFU）となります。^{[ 6 ]}^{[ 7 ]}

CPUとAFUは同じメモリ空間を共有するため、CPUはCPUのメインメモリとアクセラレータのメモリ空間間のメモリ変換やメモリシャッフルを行う必要がなく、低レイテンシと高速化を実現できます。アプリケーションは、ホストOSの汎用CAPIカーネル拡張によってすべてが有効化されるため、特別なデバイスドライバなしでアクセラレータを利用できます。CPUとPSLは、アプリケーションの要求に応じて、互いのメモリとレジスタを直接読み書きできます。

キャピ

CAPIはPCIe Gen 3の上に16個のPCIeレーンを使用して階層化され、CAPI対応システムのPCIeスロットに追加される機能です。通常、このようなマシンにはCAPI対応の専用PCIeスロットが設けられています。POWER8プロセッサーごとにCAPIユニットは1つしか存在しないため、使用可能なCAPIユニットの数は、PCIeスロットの数に関係なく、POWER8プロセッサーの数によって決まります。一部のPOWER8システムでは、IBMはデュアルチップモジュールを採用しており、プロセッサーソケットあたりのCAPI容量を2倍にしています。

PCIeデバイスとCPU間の従来のトランザクションは約20,000回の操作を必要としますが、CAPI接続デバイスは約500回しか使用しないため、レイテンシが大幅に削減され、操作オーバーヘッドが減少するため帯域幅が効果的に増加します。^{[ 7 ]}

CAPIポートの総帯域幅は、基盤となるPCIe 3.0 x16テクノロジーによって決定され、双方向で約16GB/秒に達します。^{[ 8 ]}

CAPI 2

CAPI-2は、IBM POWER9プロセッサで導入された技術の漸進的な進化形です。^{[ 8 ]} PCIe Gen 4上で動作し、パフォーマンスは実質的に2倍の32GB/秒に達します。また、アクセラレータからのDMAやAtomicsのサポートなど、いくつかの新機能も導入されています。

オープンCAPI

OpenCAPIを支える技術は、 AMD、Google、IBM、Mellanox、Micronがパートナーの Nvidia、Hewlett Packard Enterprise、Dell EMC、Xilinxと共同で2016年10月に設立したOpenCAPIコンソーシアムによって管理されている。^[⁹^]

オープンCAPI 3

OpenCAPI（旧称New CAPIまたはCAPI 3.0）はPCIe上に階層化されていないため、PCIeスロットを使用しません。IBMのCPU POWER9では、 NVLink 2.0と共有するBluelink 25G I/O機能を使用し、ピーク速度は50GB/秒です。^[¹⁰^] OpenCAPIはPCIe上に階層化されておらず、独自のトランザクションプロトコルを使用するため、アクセラレータにPSLユニット（CAPI 1および2で必要）は必要ありません。^[¹¹^]

オープンCAPI 4

POWER9の一般提供後の将来のチップに予定されている。^{[ 12 ]}

オミ

OpenCAPIメモリインターフェース（OMI）は、OpenCAPIをベースとしたシリアル接続 RAM（SAR）技術で、メインメモリに低レイテンシかつ高帯域幅の接続を提供します。OMIはメモリモジュール上にコントローラチップを搭載しており、DDR4、DDR5、HBM、ストレージクラスの不揮発性RAMなど、モジュールで使用されるメモリの種類に関わらず、テクノロジーに依存しないアプローチを実現します。そのため、OMIベースのCPUは、メモリモジュールを交換することでRAMの種類を変更できます。

シリアル接続では、CPU ダイ上のインターフェースに使用するスペースが少なくなるため、一般的な DDR メモリを使用する場合と比較して、より多くのスペースを確保できる可能性があります。

OMIはIBMのPower10 CPUに実装されており、8つのOMIメモリコントローラをオンチップで搭載し、プロセッサあたり4TBのRAMと410GB/sのメモリ帯域幅を実現しています。これらのDDIMM（Differential Dynamic Memory Module）には、OMIコントローラとメモリバッファが含まれており、フォールトトレランスと冗長性のために個々のメモリチップをアドレス指定できます。

Microchip Technology社は、DDIMM用のOMIコントローラを製造しています。同社のSMC 1000 OpenCAPIメモリは、「シリアル接続メモリを採用した市場における次世代の進歩」と評されています。^{[ 13 ]}

参照

放棄された遺産

レガシー、アップデート

コンテンポラリー

参考文献

^ Agam Shah (2014年12月17日). 「IBMの新型Power8、Watsonチップの性能を2倍に向上」 . PC World . 2018年2月1日時点のオリジナルよりアーカイブ。 2014年12月17日閲覧。
^ 「IBM Power8プロセッサーの詳細 - 12コア、96MB eDRAM L3キャッシュ、4GHzクロック速度の22nm設計を採用」 WCCFtech 2013年8月27日. 2014年12月17日閲覧。
^ Md Syadus Sefat、Semih Aslan、Jeffrey W Kellington、Apan Qasem (2019-10-03). 「CAPIベースFPGAによるディープニューラルネットワークのホットスポットの高速化」. 2019 IEEE 第21回国際高性能コンピューティング・通信会議; IEEE 第17回国際スマートシティ会議; IEEE 第5回国際データサイエンス・システム会議 (HPCC/Smart City /DSS) . IEEE. pp. 248– 256. doi : 10.1109/HPCC/SmartCity/DSS.2019.00048 . ISBN 978-1-7281-2058-4. S2CID 203656070 .{{cite book}}: CS1 maint: 複数の名前: 著者リスト (リンク)
^ OpenCAPI 発表: AMD、IBM、Google、Xilinx、Micron、Mellanox がヘテロジニアスコンピューティング時代に協力
^ CXLコンソーシアムとOpenCAPIコンソーシアムがOpenCAPI仕様をCXLに移管する意向書に署名
^ POWER8システム向けコヒーレント・アクセラレータ・プロセッサ・インターフェース（CAPI） – ホワイトペーパー
^ ^a ^bビッグデータとクラウドのための再構成可能なアクセラレータ – RAW 2016
^ ^a ^bコヒーレント加速のためのサーバーバスの開放
^技術リーダーが集結し、ビッグデータ、機械学習、分析、その他の新たなワークロードに対応した新しいクラウドデータセンターサーバー設計を実現
^ビッグブルーはPower9で空を目指す
^ OpenCAPIがPCIeに対応、10倍の改善を約束
^ Stuecheli, Jeff (2017年1月26日). 「ウェビナー POWER9」（ビデオ録画 / スライド） . AIX仮想ユーザーグループ.-スライド_（PDF） - AIX VUGページにはスライドとビデオへのリンクがあります
^パトリック・ケネディ（2019年8月5日）、マイクロチップSMC 1000、シリアル接続メモリの未来へ、Servethehome

外部リンク

[pcworld-1] Agam Shah (2014年12月17日). 「IBMの新型Power8、Watsonチップの性能を2倍に向上」 . PC World . 2018年2月1日時点のオリジナルよりアーカイブ。 2014年12月17日閲覧。

[wccftech-2] 「IBM Power8プロセッサーの詳細 - 12コア、96MB eDRAM L3キャッシュ、4GHzクロック速度の22nm設計を採用」 WCCFtech 2013年8月27日. 2014年12月17日閲覧。

[3] Md Syadus Sefat、Semih Aslan、Jeffrey W Kellington、Apan Qasem (2019-10-03). 「CAPIベースFPGAによるディープニューラルネットワークのホットスポットの高速化」. 2019 IEEE 第21回国際高性能コンピューティング・通信会議; IEEE 第17回国際スマートシティ会議; IEEE 第5回国際データサイエンス・システム会議 (HPCC/Smart City /DSS) . IEEE. pp. 248– 256. doi : 10.1109/HPCC/SmartCity/DSS.2019.00048 . ISBN 978-1-7281-2058-4. S2CID 203656070 .{{cite book}}: CS1 maint: 複数の名前: 著者リスト (リンク)

[4] OpenCAPI 発表: AMD、IBM、Google、Xilinx、Micron、Mellanox がヘテロジニアスコンピューティング時代に協力

[5] CXLコンソーシアムとOpenCAPIコンソーシアムがOpenCAPI仕様をCXLに移管する意向書に署名

[6] POWER8システム向けコヒーレント・アクセラレータ・プロセッサ・インターフェース（CAPI） – ホワイトペーパー

[RAWkeynote-7] ビッグデータとクラウドのための再構成可能なアクセラレータ – RAW 2016

[nextplatform-capi-8] コヒーレント加速のためのサーバーバスの開放

[9] 技術リーダーが集結し、ビッグデータ、機械学習、分析、その他の新たなワークロードに対応した新しいクラウドデータセンターサーバー設計を実現

[10] ビッグブルーはPower9で空を目指す

[11] OpenCAPIがPCIeに対応、10倍の改善を約束

[power9_webinar-12] Stuecheli, Jeff (2017年1月26日). 「ウェビナー POWER9」（ビデオ録画 / スライド） . AIX仮想ユーザーグループ.-スライド_（PDF） - AIX VUGページにはスライドとビデオへのリンクがあります

[13] パトリック・ケネディ（2019年8月5日）、マイクロチップSMC 1000、シリアル接続メモリの未来へ、Servethehome

[ 1 ]

[ 2 ]

[

[

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[

[

[

[ 12 ]

[ 13 ]