超並列プロセッサアレイ

並列プロセッサアレイ MPPA は、数百または数千のCPURAMメモリを超並列に配列した集積回路の一種です。これらのプロセッサは、再構成可能なチャネル相互接続を介して互いに処理を渡します。多数のプロセッサを並列に動作させることで、MPPAチップは従来のチップよりも要求の厳しいタスクを実行できます。MPPAは、高性能な組み込みシステムアプリケーションを開発するためのソフトウェア並列プログラミングモデルに基づいています。

建築

MPPAはMIMD(Multiple Instruction Streams, Multiple Data)アーキテクチャであり、分散メモリはグローバルに共有されるのではなく、ローカルにアクセスされます。各プロセッサは厳密にカプセル化されており、自身のコードとメモリにのみアクセスします。プロセッサ間のポイントツーポイント通信は、コンフィギュラブルインターコネクトによって直接実現されます。[ 1 ]

MPPAの超並列性と分散メモリMIMDアーキテクチャは、主に汎用コンピューティングを目的とした、プロセッサ数が少なくSMPやその他の共有メモリアーキテクチャを採用したマルチコアメニーコアアーキテクチャとは一線を画しています。また、 HPCアプリケーションで使用されるSIMDアーキテクチャを採用したGPGPUとも一線を画しています。[ 2 ]

プログラミング

MPPAアプリケーションは、階層的なブロックダイアグラムまたはワークフローとして表現され、各基本オブジェクトはそれぞれ独自のプロセッサ上で並列実行されます。同様に、大規模なデータオブジェクトは分割され、並列アクセスが可能なローカルメモリに分散されます。オブジェクトは専用チャネルの並列構造を介して通信します。その目的は、ローカルレイテンシを最小限に抑えながら、全体的なスループットを最大化し、パフォーマンスと効率を最適化することです。MPPAの計算モデルは、カーンプロセスネットワークまたは通信シーケンシャルプロセス(CSP)に類似しています。 [ 3 ]

アプリケーション

MPPAは、ビデオ圧縮[ 4 ] [ 5 ]画像処理[ 6 ]医療用画像処理、ネットワーク処理ソフトウェア無線、その他の計算集約型ストリーミングメディアアプリケーションなど、 FPGADSP、ASICチップを使用するような高性能組み込みシステムやデスクトップコンピュータおよびサーバアプリケーションのハードウェアアクセラレーションに使用ます

企業で開発されたMPPAには、AmbricPicoChipIntel[ 7 ] IntellaSysGreenArraysASOCSTileraKalrayCoherent LogixTabulaAdaptevaなどで設計されたものが含まれます。Aspex (Ericsson) Linedancerは、MPPAではなくMassive Wide SIMD Arrayである点で異なります。厳密に言えば、3,000ゲートコアのうち4,096個すべてがそれぞれ連想メモリを備えているため、連想処理とみなすことができます。 [ 8 ] [ 9 ] [ 10 ]

大学で開発された製造MPPAには、カリフォルニア大学デービス校の36コア[ 11 ]と167コア[ 12 ]の非同期シンプルプロセッサアレイ(AsAP) 、 MITの16コアRAW [ 13 ] 、復旦大学の16コア[ 14 ]と24コア[ 15 ]のアレイがある。

中国のサンウェイプロジェクトは、2016年6月から2018年6月まで世界最速のスーパーコンピュータであった太湖光スーパーコンピュータ向けに、独自の260コアのSW26010メニーコアチップを開発しました。 [ 16 ] [ 17 ]

DE Shaw Researchが分子動力学シミュレーション用に設計したAnton 3プロセッサには、12×24のタイル状に配置された576個のプロセッサアレイが含まれており、コアのペアで構成されています。ルーティングされたネットワークはこれらのタイルを相互にリンクし、完全なシステム内の他のノードにオフチップで拡張されます。[ 18 ] [ 19 ]

参照

参考文献

  1. ^ Mike Butts (2007年9~10月). 「超並列プロセッサアレイにおける通信を介した同期」. IEEE Micro . 27 (5). IEEE Computer Society : 32. Bibcode : 2007IMicr..27e..32A . doi : 10.1109/MM.2007.4378781 .
  2. ^マイク・バットス「マルチコア・超並列プラットフォームとムーアの法則によるスケーラビリティ」。シリコンバレーで開催された組み込みシステムカンファレンスの議事録、2008年4月
  3. ^ Mike Butts、Brad Budlong、Paul Wasson、Ed White(2008年4月)。「超並列プロセッサアレイ上の再構成可能なワークファーム」。2008年第16回国際フィールドプログラマブルカスタムコンピューティングマシンシンポジウム。IEEEコンピュータ協会。doi 10.1109/FCCM.2008.6
  4. ^ Laurent Bonetto (2008年5月16日). 「組み込みHDビデオおよび画像処理向け超並列処理アレイ(MPPA)(パート1)」 . Video/Imaging DesignLine. EE Times .
  5. ^ Laurent Bonetto (2008年7月18日). 「組み込みHDビデオおよび画像処理向け超並列処理アレイ(MPPA)(パート2)」 . Video/Imaging DesignLine. EE Times .
  6. ^ Paul Chen (2008年3月18日). 「超並列プロセッサアレイ(MPPA)を用いたマルチモードセンサー処理」 Programmable Logic DesignLine. EE Times .
  7. ^ Vangal, Sriram R.; Howard, Jason; Ruhl, Gregory; Dighe, Saurabh; Wilson, Howard; Tschanz, James; Finan, David; et al. (2008). 「65nm CMOSプロセスによる80タイル、100W以下のテラフロップス処理プロセッサ」. IEEE Journal of Solid-State Circuits . 43 (1): 29– 41. Bibcode : 2008IJSSC..43...29V . doi : 10.1109/JSSC.2007.910957 .
  8. ^ Krikelis, A. (1990). 「超並列連想アーキテクチャによる人工ニューラルネットワーク」 .国際ニューラルネットワーク会議. p. 673. doi : 10.1007/978-94-009-0643-3_39 . ISBN 978-0-7923-0831-7
  9. ^ 「System-V大規模並列連想文字列処理アーキテクチャにおける効果的なモンテカルロシミュレーション」(PDF) 。2021年6月6日時点のオリジナル(PDF)からのアーカイブ
  10. ^ 「メディア アプリケーション向けの 4096 個の処理ユニットを備えたプログラマブル プロセッサ」
  11. ^ユウ、ジイー;ミューセン、マイケル。代表者、ライアン。サタリ、オマル。ライ、マイケル。ウェッブ、ジェレミー。頑張れ、エリック。モーセニン、ティヌーシュ。シン、マンディープ。バース、ビーヴァン (2006)。DSP アプリケーション用の単純なプロセッサの非同期アレイ。 IEEE 国際ソリッドステート回路会議 (ISSCC'06)。 Vol. 49. pp.  428–429 .土井: 10.1109/ISSCC.2006.1696225
  12. ^ Truong, Dean; Cheng, Wayne; Mohsenin, Tinoosh; Yu, Zhiyi; Jacobson, Toney; Landge, Gouri; Meeuwsen, Michael; et al. (2008).プロセッサごとに動的電源電圧とクロック周波数のスケーリング機能を備えた167プロセッサ65nm計算プラットフォーム.VLSI回路シンポジウム.pp.  22– 23. doi : 10.1109/VLSIC.2008.4585936 .
  13. ^ Michael Bedford Taylor、Jason Kim、Jason Miller、David Wentzlaff、Fae Ghodrat、Ben Greenwald、Henry Hoffmann、Paul Johnson、Walter Lee、Arvind Saraf、Nathan Shnidman、Volker Strumpen、Saman Amarasinghe、Anant Agarwal (2003年2月). 「ポイントツーポイント・スカラーオペランド・ネットワークを備えた16イシュー・マルチプログラムカウンタ・マイクロプロセッサ」. IEEE International Solid-State Circuits Conference Proceedings . doi : 10.1109/ISSCC.2003.1234253 .
  14. ^ Yu, Zhiyi; You, Kaidi; Xiao, Ruijin; Quan, Heng; Ou, Peng; Ying, Yan; Yang, Haofan; Zeng, Xiaoyang (2012). 「メッセージパッシングと共有メモリによるコア間通信メカニズムを備えた800MHz 320mW 16コアプロセッサ」. 2012 IEEE International Solid-State Circuits Conference Digest of Technical Papers (ISSCC) . IEEE. pp.  64– 66. doi : 10.1109/ISSCC.2012.6176931 .
  15. ^ Ou, Peng; Zhang, Jiajie; Quan, Heng; Li, Yi; He, Maofei; Yu, Zheng; Yu, Xueqiu; 他 (2013). 「11 Tb/s/W パケット制御回線交換型二層ネットワークオンチップおよび異種実行アレイを搭載した 65nm 39GOPS/W 24コアプロセッサ」. 2013 IEEE 国際固体回路会議技術論文集 (ISSCC) . IEEE. pp.  56– 57. doi : 10.1109/ISSCC.2013.6487635 .
  16. ^ Dongarra, Jack (2016年6月20日). 「Sunway TaihuLightシステムに関する報告書」(PDF) . www.netlib.org . 2016年6月20日閲覧
  17. ^フー、ハオファン;リャオ、ジュンフェン。楊晋哲。他。 (2016年)。「Sunway TaihuLight スーパーコンピューター: システムとアプリケーション」科学。中国情報局科学59 (7) 072001.土井: 10.1007/s11432-016-5588-7
  18. ^ Shaw, David E.; Adams, Peter J.; Azaria, Asaph; Bank, Joseph A.; Batson, Brannon; Bell, Alistair; Bergdorf, Michael; Bhatt, Jhanvi; Butts, J. Adam; Correia, Timothy; Dirks, Robert M.; Dror, Ron O.; Eastwood, Michael P.; Edwards, Bruce; Even, Amos (2021-11-14). "Anton 3". Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis . St. Louis Missouri: ACM. pp.  1– 11. doi : 10.1145/3458817.3487397 . ISBN 978-1-4503-8442-1. S2CID  239036976 .
  19. ^ Adams, Peter J.; Batson, Brannon; Bell, Alistair; Bhatt, Jhanvi; Butts, J. Adam; Correia, Timothy; Edwards, Bruce; Feldmann, Peter; Fenton, Christopher H.; Forte, Anthony; Gagliardo, Joseph; Gill, Gennette; Gorlatova, Maria; Greskamp, Brian; Grossman, JP (2021-08-22). 「ΛNTON 3 ASIC:分子動力学シミュレーションのための火を噴くモンスター」. 2021 IEEE Hot Chips 33 Symposium (HCS) . Palo Alto, CA, USA: IEEE. pp.  1– 22. doi : 10.1109/HCS52781.2021.9567084 . ISBN 978-1-6654-1397-8. S2CID  239039245 .