
AIアクセラレータやディープラーニングプロセッサとも呼ばれるニューラルプロセッシングユニット(NPU)は、人工ニューラルネットワークやコンピュータビジョンなどの人工知能(AI)や機械学習アプリケーションを高速化するために設計された特殊なハードウェアアクセラレータ[1]またはコンピュータシステム[2] [3]の一種です。
使用
これらの目的は、既に学習済みのAIモデル(推論)を効率的に実行すること、またはAIモデルを学習させることです。その用途には、ロボット工学、モノのインターネット(IoT) 、データ集約型またはセンサー駆動型タスク向けのアルゴリズムが含まれます。 [4]これらは多くの場合、メニーコアまたは空間設計であり、低精度演算、新しいデータフローアーキテクチャ、またはインメモリコンピューティング機能に重点を置いています。2024年現在、広く使用されているデータセンターグレードのAI集積回路チップであるNvidia H100 GPUには、数百億個のMOSFETが搭載されています。[5][アップデート]
消費者向けデバイス
AIアクセラレータは、Apple iPhone 、 VersalおよびNPUのAMD AIエンジン[6] 、 Huawei、Google Pixelスマートフォン[7]などのモバイルデバイスで使用されており、多くのApple Silicon、Qualcomm、Samsung、Google Tensorスマートフォンプロセッサにも搭載されています。[8]
最近では(2022年頃) 、 Intel、[9] AMD、[10] Apple Silicon [11]のコンピュータプロセッサにも追加されています。Intel Meteor Lakeプロセッサのすべてのモデルには、コンピュータビジョンとディープラーニングの推論を加速するための汎用プロセッサユニット(VPU)が組み込まれています。[12]
民生用デバイスにおけるNPUは、小型で電力効率が高く、小規模なモデルを実行する際には十分な速度を実現することを目指しています。そのため、INT4、INT8、FP8、FP16といったデータ型を用いた低ビット幅演算をサポートするように設計されています。一般的な指標として1秒あたり兆演算数(TOPS)が挙げられますが、この指標だけではどのような演算が実行されているかを定量化することはできません。[13]
データセンター

アクセラレータはクラウドコンピューティングサーバーで使用されています。例えば、 Google Cloud PlatformのTensor Processing Unit(TPU)[14]やAmazon Web ServicesのTrainiumおよびInferentiaチップ[15]などが挙げられます。このカテゴリのデバイスにはベンダー固有の用語が多く存在し、主流の設計のない新興技術です。
2010年代後半以降、NVIDIAやAMDなどの企業が設計するグラフィックス・プロセッシング・ユニット(GPU)には、低精度行列乗算演算用の専用機能ユニットという形でAI特有のハードウェアが組み込まれることが多くなりました。これらのGPUは、学習と推論の両方においてAIアクセラレータとして広く利用されています。[16]
科学計算
NPU は低精度 (FP16、INT8 など)の行列乗算演算向けにカスタマイズされていますが、科学計算では高精度の行列乗算をエミュレートするために使用できます。最新の GPU は NPU 部分の高速化に重点を置いているため、NPU でエミュレートされた FP64 (尾崎方式) を使用すると、ネイティブ FP64 よりもパフォーマンスが向上する可能性があります。これは、NVIDIA TITAN RTX で FP16 エミュレートされた FP64 を使用し、NVIDIA コンシューマー GPU と A100 GPU で INT8 エミュレートされた FP64 を使用することで実証されています。(コンシューマー GPU は FP64 ハードウェア容量が少ないため、この方式の恩恵を受け、6 倍の高速化を示しています。) [17] CUDA Toolkit 13.0 Update 2 以降、cuBLAS はネイティブよりも高速な場合、同等の精度の INT8 エミュレートされた FP64 行列乗算を自動的に使用します。これはバージョン12.9で導入されたFP16エミュレートFP32機能に加えて追加されたものです。[18]
プログラミング
オペレーティングシステムまたは高水準ライブラリは、TensorFlow Lite with LiteRT Next(Android)やCoreML(iOS、macOS)などのアプリケーションプログラミングインターフェースを提供する場合があります。学習済みのニューラルネットワークを表現するために、 ONNXなどの形式が使用されます。
コンシューマー向けCPU統合NPUは、ベンダー固有のAPIを介してアクセスできます。AMD(Ryzen AI)、Intel(OpenVINO)、Apple Silicon(CoreML)、[a]、Qualcomm(SNPE)はそれぞれ独自のAPIを備えており、これらを基に高レベルライブラリを構築できます。
GPUは通常、CUDAやOpenCLといった既存のGPGPUパイプラインを、低精度や特殊な行列乗算演算向けに最適化したものを使用します。Vulkanも使用されています。Google TPUなどのカスタムビルドシステムは、プライベートインターフェースを使用しています。
AI分野では、基盤となるアクセラレーションAPIやコンパイラ/ランタイムが多数存在し、それらの組み合わせの多さからソフトウェア開発の工数が大幅に増加しています。2025年現在、オープンスタンダード団体であるKhronos Groupは、AI関連インターフェースの標準化を推進し、開発作業量を削減しています。Khronosは、OpenCLとVulkanにおけるデータ型と固有演算の拡張、SPIR-Vへの計算グラフの組み込み、ニューラルネットワークを記述するためのNNEF /SkriptNDファイル形式の3つの分野に取り組んでいます。[19]
注記
- ^ MLXは、Apple SiliconチップのApple Neural Engine(ANE)部分ではなく、CPUとGPU部分をベースに構築されています。比較的良好なパフォーマンスは、大容量で高速な 統合メモリ設計の採用によるものです。
参照
参考文献
- ^ “Intel unveils Movidius Compute Stick USB AI Accelerator”. 2017年7月21日. 2017年8月11日時点のオリジナルよりアーカイブ。 2017年8月11日閲覧。
- ^ “Inspurs が GX4 AI アクセラレーターを発表”. 2017 年 6 月 21 日。
- ^ Wiggers, Kyle (2019年11月6日) [2019], Neural Magic raises $15 million to boost AI inferencing speed on off-the-shelf processors, archived from the original on March 6, 2020 , retrieved March 14, 2020
- ^ 「Google、AIプロセッサを設計」2016年5月18日。Google は独自の AI アクセラレータを使用しています。
- ^ Moss, Sebastian (2022年3月23日). 「Nvidia、800億トランジスタを搭載した新型Hopper H100 GPUを発表」. Data Center Dynamics . 2024年1月30日閲覧。
- ^ Brown, Nick (2023年2月12日). 「ステンシルベースの大気移流シミュレーションを高速化するVersal AIエンジンの探究」. 2023 ACM/SIGDA国際フィールドプログラマブルゲートアレイシンポジウム議事録. FPGA '23. ニューヨーク州ニューヨーク: Association for Computing Machinery. pp. 91– 97. arXiv : 2301.13016 . doi :10.1145/3543622.3573047. ISBN 978-1-4503-9417-8。
- ^ 「HUAWEI、IFAでモバイルAIの未来を発表」。2021年11月10日時点のオリジナルよりアーカイブ。2024年1月28日閲覧。
- ^ 「Snapdragon 8 Gen 3 モバイルプラットフォーム」(PDF)。2023年10月25日時点のオリジナル(PDF)からのアーカイブ。
- ^ 「IntelのLunar Lakeプロセッサーは2024年第3四半期に登場」。Intel . 2024年5月20日。
- ^ 「AMD XDNA アーキテクチャ」。
- ^ 「Apple Neural EngineへのTransformersの導入」Apple機械学習研究. 2023年8月24日閲覧。
- ^ 「Intel、第14世代Meteor Lakeチップに「VPU」プロセッサーユニットを搭載へ」PCMAG 2022年8月。
- ^ 「AI TOPS と NPU パフォーマンス メトリックのガイド」。
- ^ Jouppi, Norman P.; et al. (2017年6月24日). 「データセンター内におけるTensor Processing Unitのパフォーマンス分析」. ACM SIGARCH Computer Architecture News . 45 (2): 1– 12. arXiv : 1704.04760 . doi : 10.1145/3140659.3080246 .
- ^ 「シリコンイノベーションがAWSの成功の秘訣となった経緯」Amazon Science 2022年7月27日. 2024年7月19日閲覧。
- ^ ディラン・パテル、ダニエル・ニッシュボール、マイロン・シェ(2023年11月9日)「Nvidiaの中国製新型AIチップ、米国の規制を回避」SemiAnalysis 2024年2月7日閲覧。
- ^ 大友 博之; 尾崎 勝久; 横田 理央 (2024年7月). 「整数行列乗算ユニットにおけるDGEMM」.国際高性能計算応用ジャーナル. 38 (4): 297– 313. arXiv : 2306.11975 . doi :10.1177/10943420241239588.
- ^ 「cuBLASの浮動小数点エミュレーションによるTensorコアパフォーマンスの解放」NVIDIA技術ブログ。2025年10月24日。
- ^ Tavenrath, Markus (2025). KhronosグループにおけるAI関連標準化の現状(PDF) . Global ICT Standards Conference 2025.
外部リンク
- Nvidia、次世代プラットフォーム「Pascal」でアクセラレータをフル稼働
- Eyerissプロジェクト、マサチューセッツ工科大学