テスラ道場

Tesla Dojoは、テスラがコンピュータービジョンによる映像処理と認識のために設計・構築したスーパーコンピュータシリーズです。 [ 1 ]これは、テスラの機械学習モデルの トレーニングに使用され、同社の完全自動運転(FSD)先進運転支援システムの改良に使用されました。テスラによると、2023年7月に生産開始となりました。[ 2 ]

Dojoの目標は、テスラの400万台以上の車の実際の運転状況からキャプチャされた数百万テラバイトのビデオデータを効率的に処理することでした。 [ 3 ]この目標は、従来のスーパーコンピュータの設計とはかなり異なるアーキテクチャにつながりました。[ 4 ] [ 5 ]

2025年8月、ブルームバーグニュースはDojoプロジェクトが解散したと報じたが、その後2026年1月に再開された。

歴史

テスラは、先進運転支援システム「オートパイロット」の開発のため、複数の超並列コンピューティングクラスターを運用している。5,760基のNvidia A100グラフィック処理装置(GPU)を使用するその主要な無名のクラスターは、2021年の第4回国際コンピュータビジョンおよびパターン認識合同会議(CCVPR 2021)で、アンドレイ・カルパティ氏によって「世界でおよそ5番目のスーパーコンピューター」[ 6 ]と宣伝され、同様のコンポーネントを使用するNvidia Seleneスーパーコンピューターの性能をスケーリングした結果、約81.6ペタフロップスに達した。 [ 7 ]しかし、テスラの主要なGPUクラスターの性能は議論の的となっている。これは、単精度浮動小数点数( FP32)と倍精度浮動小数点数(FP64 )のどちらを使用して測定されたかが明確ではなかったためである。[ 8 ]テスラはまた、トレーニング用に2つ目の4,032 GPUクラスターと、オブジェクトの自動ラベル付け用に3つ目の1,752 GPUクラスターを運用している。[ 9 ] [ 10 ]

名前が付けられていない主要なテスラGPUクラスターは、現実世界のテスラ車内で稼働しているテスラオートパイロットカメラから毎秒36フレームで撮影された、それぞれ10秒間のビデオクリップ100万本の処理に使用されました。これらのビデオクリップには合計60億のオブジェクトラベルと深度および速度データが含まれており、データセットの合計サイズは1.5 ペタバイトでした。このデータセットは、テスラ車のオートパイロットコンピューターが道路を理解するのを支援するためのニューラルネットワークのトレーニングに使用されました。[ 6 ] 2022年8月までに、テスラは主要なGPUクラスターを7,360 GPUにアップグレードしました。[ 11 ]

Dojoは、2019年4月にテスラの「Autonomy Investor Day」でイーロン・マスク氏によって初めて言及されました。 [ 12 ] 2020年8月、[ 6 ] [ 13 ]マスク氏は電力と熱の問題により「約1年先」になると述べました。[ 14 ]

[Dojo]の決定的な目標はスケーラビリティです。コヒーレンシ仮想メモリ、グローバルディレクトリ検索といった、一般的なCPUに見られるメカニズムは、スケーラビリティが低いため、あまり重視していません。その代わりに、メッシュ全体にわたって非常に高速で分散化されたSRAM [静的ランダムアクセスメモリ] ストレージを採用しました。これは、一般的な分散システムよりも桁違いに高速な相互接続によって支えられています。

 — エミール・タルペス、テスラのハードウェアエンジニア、2022年のThe Next Platformの記事[ 5 ]

Dojoは、2021年8月19日に開催されたテスラの人工知能(AI)デーで正式に発表されました。 [ 15 ]テスラはD1チップの詳細と、3,000個のD1チップを収容するデータセンター「Project Dojo」の計画を明らかにしました。[ 16 ]最初の「トレーニングタイル」は前の週に完成し、納品されていました。[ 9 ] 2021年10月、テスラは電気電子学会(IEEE)標準754の拡張として、Configurable Float8(CFloat8)およびConfigurable Float16 (CFloat16)浮動小数点形式と算術演算について説明した「Dojoテクノロジー」ホワイトペーパーをリリースしました。[ 17 ]

2022年9月に開催されたAIデーで、テスラは複数のシステムトレイと1つのキャビネットを製造したと発表しました。テスト中、Project Dojoは カリフォルニア州サンノゼの変電所をトリップさせるまでに2.3メガワット(MW)の電力を消費したと同社は述べています。 [ 18 ]当時、テスラは1日に1つのトレーニングタイルを組み立てていました。[ 10 ]

2023年8月、テスラはDojoを本番環境で稼働させ、10,000個のNvidia H100 GPUで構成された新しいトレーニングクラスターも稼働させました。[ 19 ]

2024年1月、マスク氏はDojoについて「見返りが非常に大きい可能性があるため、挑戦する価値のあるロングショットだ。しかし、確率が高いわけではない」と述べた。[ 20 ]

2024年6月、マスク氏は、テキサスのギガファクトリーで現在行われている建設工事はコンピューティングクラスターのためのものであり、「テスラAI」とNvidiaなどのハードウェアを均等に組み合わせ、総熱設計電力を当初130MW、最終的には500MWを超える予定であると主張した。[ 21 ]

2025年8月、ブルームバーグニュースはDojoプロジェクトが解散したと報じたが[ 22 ]、マスク氏は2026年1月に新しいチップの反復でプロジェクトを再開すると発表した。[ 23 ]

技術アーキテクチャ

Dojoスーパーコンピュータの基本ユニットはD1チップであり、[ 24 ]元AMD CPU設計者のガネーシュ・ベンカタラマナンが率いるテスラのチームによって設計され、エミル・タルペス、デブジット・ダス・サルマ、ダグラス・ウィリアムズ、ビル・チャン、ラジブ・クリアンが含まれています。[ 5 ]

D1チップは、台湾セミコンダクター・マニュファクチャリング・カンパニー(TSMC)によって7ナノメートル(nm)の半導体ノードを使用して製造されており、500億個のトランジスタと645 mm 2 (1.0平方インチ)の大きなダイサイズを備えています。[ 25 ] [ 26 ]

2022年の人工知能(AI)デーで、テスラはDojoが複数のExaPODを展開することで拡張可能になると発表しました。これには次のようなものが含まれます。[ 27 ]

  • ExaPODあたり10キャビネット(1,062,000コア、3,000 D1チップ)
  • キャビネットあたり 2 つのシステム トレイ(106,200 コア、300 個の D1 チップ)
  • システム トレイあたり 6 つのトレーニング タイル(53,100 個のコアとホスト インターフェイス ハードウェア)
  • トレーニング タイルあたり 25 個の D1 チップ(8,850 コア)
  • D1チップあたり354個のコンピューティングコア
Tesla Dojoアーキテクチャの概要

テスラのオートパイロットハードウェア担当シニアディレクター、ベンカタラマナン氏によると、Dojoは1エクサフロップス(100万テラフロップス)以上の計算能力を持つとのことだ。[ 28 ]比較のために、Nvidiaによると、2021年8月時点で、(Dojo導入前の)テスラAIトレーニングセンターでは720のノードが使用されており、各ノードには8基のNvidia A100 Tensor Core GPUが搭載され、合計5,760基のGPUが使用され、最大1.8エクサフロップスのパフォーマンスを提供していた。[ 29 ]

D1チップ

D1プロセッシングチップの各ノード(コンピューティングコア)は、スーパースカラーコアを備えた汎用64ビットCPUです。内部命令レベルの並列処理をサポートし、同時マルチスレッド(SMT)機能も備えています。仮想メモリはサポートしておらず、メモリ保護メカニズムも限定的です。チップリソースはDojoソフトウェア/アプリケーションによって管理されます。

D1チップ上のノードのマイクロアーキテクチャ

D1命令セットは、64ビットスカラー命令と64バイトSIMD(単一命令複数データ)ベクトル命令の両方をサポートしています。 [ 30 ]整数ユニットは、RISC-V命令とカスタム命令を組み合わせ、8ビット、16ビット、32ビット、または64ビットの整数をサポートします。カスタムベクトル演算ユニットは機械学習カーネル向けに最適化されており、精度と数値範囲が混在する複数のデータ形式をサポートしており、その多くはコンパイラで構成可能です。[ 5 ]最大16個のベクトル形式を同時に使用できます。[ 5 ]

ノード

各D1ノードは、最大8つの命令を保持する32バイトのフェッチウィンドウを使用します。これらの命令は、1サイクルあたり2つのスレッドをサポートする8幅デコーダに送られ、その後、4幅、4ウェイSMTスカラースケジューラに送られます。このスケジューラは、2つの整数ユニット、2つのアドレスユニット、そしてスレッドごとに1つのレジスタファイルを備えています。ベクトル命令は、パイプラインをさらに下って、2ウェイSMTを備えた専用のベクトルスケジューラに渡され、64バイトSIMDユニットまたは4つの8×8×4行列乗算ユニットのいずれかに送られます。[ 30 ]

ネットワークオンチップ(NOC)ルーターは、コアを2次元メッシュネットワークにリンクします。各隣接ノードとの間で4方向すべてに1パケットずつ送受信でき、クロックサイクルごとにローカルSRAMへの64バイトの読み取りと書き込みを1回ずつ実行できます。[ 30 ]

ハードウェアネイティブ操作は、データ、セマフォ、バリア制約をメモリとCPU間で転送します。システム全体のDDR4(ダブルデータレート4 )同期ダイナミックランダムアクセスメモリ(SDRAM)は、大容量ストレージのように機能します。

メモリ

各コアには1.25 メガバイト(MB)のSRAMメインメモリが搭載されています。ロード速度とストア速度はそれぞれ400 ギガバイト(GB)/秒、270GB/秒に達します。チップには明示的なコア間データ転送命令が搭載されています。各SRAMには、2つのデコーダーにデータを供給する独自のリストパーサーと、ベクターレジスタファイルにデータを供給するギャザーエンジンが搭載されており、これらを組み合わせることでノード間で直接情報を転送できます。[ 5 ]

死ぬ

12個のノード(コア)がローカルブロックにグループ化されています。ノードは1つのダイ上に18×20のアレイに配置され、そのうち354個のコアがアプリケーションに利用可能です。[ 5 ]ダイは2 ギガヘルツ(GHz)で動作し、合計440MBのSRAM(360コア×1.25MB/コア)を搭載しています。[ 5 ] 16ビットブレイン浮動小数点(BF16)数、またはTesla提案である構成可能な8ビット浮動小数点(CFloat8)数を使用することで376テラフロップスに達し、[ 17 ] FP32では22テラフロップスに達します。

各ダイは、他のダイとリンクするために周囲に沿って576個の双方向シリアライザ/デシリアライザSerDes )チャネルで構成され、4つのダイエッジ全体で8TB/秒の速度でデータを転送します。 [ 5 ]各D1チップの熱設計電力は約400ワットです。[ 31 ]

トレーニングタイル

テスラ道場タイル

水冷式のトレーニングタイルは、25個のD1チップを5×5のアレイにパッケージ化しています。[ 5 ]各タイルは40個の入出力(I/O)チップを介して36TB/秒の総帯域幅をサポートします。これはチップメッシュネットワークの帯域幅の半分です。各タイルは10TB/秒のオンタイル帯域幅をサポートします。各タイルは11GBのSRAMメモリ(25個のD1チップ × 360コア/D1 × 1.25MB/コア)を備えています。各タイルはBF16/CFloat8精度で9ペタフロップスを実現します(25個のD1チップ × 376TFLOP/D1)。各タイルの消費電力は15キロワットです。[ 5 ] 52ボルトで 288 アンペアです[ 31 ]

システムトレイ

6つのタイルはシステムトレイに集約され、ホストインターフェースと統合されています。各ホストインターフェースには512個のx86コアが搭載され、Linuxベースのユーザー環境を提供します。[ 18 ] Dojoシステムトレイは以前はトレーニングマトリックスと呼ばれていました。これは、6つのトレーニングタイル、4台のホストサーバーにまたがる20枚のDojoインターフェースプロセッサカード、およびイーサネット接続された補助サーバーで構成されていました。53,100個のD1コアを搭載しています。

Dojoインターフェースプロセッサ

Dojoインターフェースプロセッサカード(DIP)はタイルアレイの端に配置され、メッシュネットワークに接続されます。ホストシステムはDIPに電力を供給し、様々なシステム管理機能を実行します。DIPメモリとI/Oコプロセッサは、32GBの共有HBM(HBM2eまたはHBM3)と、メッシュネットワークを迂回するイーサネットインターフェースを備えています。各DIPカードには、合計32GBのメモリバンクを4つ備えた2つのI/Oプロセッサが搭載され、800GB/秒の帯域幅を実現します。

DIPは、カード1枚あたり32GB/秒の帯域幅を提供するPCI-Express 4.0 x16スロットに接続します。タイルエッジあたり5枚のカードで、ホストサーバーに160GB/秒、タイルに4.5TB/秒の帯域幅を提供します。

テスラトランスポートプロトコル

Teslaトランスポートプロトコル(TTP)は、PCI Expressを介した独自の相互接続です。50GB/秒のTTPプロトコルリンクは、イーサネット経由で動作し、単一の400Gbpsポートまたは200Gbpsポートのペアセットにアクセスします。2次元メッシュネットワーク全体を横断するには30ホップかかる場合がありますが、イーサネット経由のTTPではわずか4ホップ(低帯域幅)で済むた​​め、垂直レイテンシが低減されます。

キャビネットとExaPOD

Dojoは、タイルをキャビネット内に垂直に積み重ねることで、タイル間の距離と通信時間を最小限に抑えます。Dojo ExaPodシステムは120個のタイルで構成され、合計1,062,000個の使用可能コアを備え、BF16およびCFloat8形式で1エクサフロップスを達成します。1.3TBのオンタイルSRAMメモリと13TBのデュアルインライン高帯域幅メモリ(HBM)を搭載しています。

ソフトウェア

DojoはPyTorchフレームワークをサポートしています。「CやC++ほど低レベルではなく、CUDAのようなものも全くありません。」[ 5 ] SRAMは単一のアドレス空間として表示されます。[ 5 ]

FP32はAIタスクに必要な精度と範囲を超えており、FP16では不十分であるため、Teslaは8ビットと16ビットの設定可能な浮動小数点形式(それぞれCFloat8とCFloat16)を考案しました。これにより、コンパイラーは仮数部と指数部の精度を動的に設定でき、より高速なベクトル処理とストレージ要件の削減と引き換えに、より低い精度を受け入れることができます。[ 5 ] [ 17 ]

参照

参考文献

  1. ^ Bleakley, Daniel (2023年6月22日). 「テスラ、来月FSDトレーニング用スーパーコンピューター『Dojo』の構築を開始The Driven . 2023年6月30日閲覧
  2. ^ 「アナリストがDojoによる6000億ドルの価値上昇を予測し、テスラ株が急騰」ロイター2023年9月11日2023年9月11日閲覧
  3. ^ Dickens, Steven (2023年9月11日). 「TeslaのDojoスーパーコンピューター:スーパーコンピューティングにおけるパラダイムシフトか?」 Forbes . 2023年9月12日閲覧
  4. ^ Vigliarolo, Brandon (2021年8月25日). 「TeslaのDojoは素晴らしいが、スーパーコンピューティングを変革することはない」 . TechRepublic . 2021年8月25日閲覧
  5. ^ a b c d e f g h i j k l m n Morgan, Timothy Prickett (2022年8月23日). 「テスラの革新的で自社開発の『Dojo』AIスーパーコンピューターの内部」 . The Next Platform . 2023年4月12日閲覧
  6. ^ a b c Peckham, Oliver (2021年6月22日). 「『Dojo』に先駆け、テスラが巨大先駆スーパーコンピュータを公開」 . HPCwire .
  7. ^ Swinhoe, Dan (2021年6月23日). 「Tesla details pre-Dojo supercomputer, could be up to 80 petaflops」 . Data Center Dynamics . 2023年4月14日閲覧
  8. ^ Raden, Neil (2021年9月28日). 「TeslaのDojoスーパーコンピューター - 事実と誇大広告を見分ける」 . diginomica . 2023年4月14日閲覧
  9. ^ a b Swinhoe, Dan (2021年8月20日). 「TeslaがDojoスーパーコンピューターの詳細を発表、Dojo D1チップとトレーニングタイルモジュールを公開」 . Data Center Dynamics . 2023年4月14日閲覧
  10. ^ a b「テスラ、Dojoスーパーコンピューターキャビネットの設置を開始、地元の変電所が故障」 Data Center Dynamics、2022年10月3日。 2023年4月14日閲覧
  11. ^ Trader, Tiffany (2022年8月16日). 「TeslaがGPU搭載AIスーパーコンピューターを増強 — 次はDojoか?」 HPCwire . 2023年4月14日閲覧
  12. ^ブラウン、マイク(2020年8月19日)「テスラ道場:イーロン・マスクが完全自動運転は「量子飛躍」の段階にあると述べる理由」 .. 2021年2月25日時点のオリジナルよりアーカイブ。2021年9月5日閲覧。
  13. ^イーロン・マスク [@elonmusk] (2020年8月14日) 「テスラは、膨大な量のビデオデータを処理するために、Dojoと呼ばれるニューラルネットワーク(NN)トレーニング用コンピューターを開発しています。これはすごい!もし興味があれば、ぜひ当社のAIチームまたはコンピューター/チップチームへの参加をご検討ください」ツイート)– Twitter経由。
  14. ^イーロン・マスク [@elonmusk] (2020年8月19日). 「Dojo V1.0はまだ完成していません。約1年かかります。チップだけではありません。電力と冷却の問題も難しいです」ツイート)– Twitter経由。
  15. ^ジン・ヒョンジュ(2021年8月20日)「マスク氏、テスラは来年ヒューマノイドロボットのプロトタイプを発売する可能性が高いと発言」ロイター通信2021年8月20日閲覧
  16. ^ Morris, James (2021年8月20日). 「イーロン・マスク、ロボット・ヒューマノイドで我々が知っている雇用の終焉を目指す」 . Forbes . 2023年4月13日閲覧
  17. ^ a b c「Tesla Dojoテクノロジー:Teslaの設定可能な浮動小数点形式と演算ガイド」(PDF)。Tesla, Inc. 2021年10月12日時点のオリジナル(PDF)からのアーカイブ。
  18. ^ a bランバート、フレッド(2022年10月1日)「テスラ、電力網を遮断するほど強力な新型Dojoスーパーコンピューターを発表」 Electrek . 2023年4月13日閲覧
  19. ^ Mann, Tobias (2023年8月30日). 「Tesla、1万台のNvidia H100 GPUクラスターでDojoへの投資をヘッジ」 . www.theregister.com . 2024年3月27日閲覧
  20. ^ Kolodny, Lora (2024年3月21日). 「イーロン・マスク傘下の企業は、テスラがライバルとなるスーパーコンピュータの開発を目指す一方で、NVIDIAのハードウェアを大量に買い漁っている」 . CNBC . 2024年3月22日閲覧
  21. ^ @elonmusk (2024年6月20日)。「今年の電力と冷却設備は約130MW規模になる予定だが、今後18ヶ月ほどで500MW以上に増加する予定だ。テスラのAIハードウェアを半分、NVIDIAやその他のハードウェアを半分程度に増やすことを目指している。勝つためにプレイするか、全くプレイしないかだ」 (ツイート) – Twitter経由。
  22. ^ 「テスラ、戦略的AIシフトの一環としてDojoスーパーコンピュータチームを閉鎖、従業員を再配置、ブルームバーグが報道」ロイター20258月7日閲覧
  23. ^ Klotz, Aaron (2026年1月20日). 「AI5チップの設計が『好調』なことから、イーロン・マスクがDojo3『宇宙』スーパーコンピュータ・プロジェクトを再開。NVIDIAの協力なしに、オールインワンのハードウェアを搭載した初のテスラ製スーパーコンピュータとなる」 . Tom's Hardware . 2026年1月20日閲覧
  24. ^ Bellan, Rebecca; Alamalhodaei, Aria (2021年8月20日). 「イーロン・マスクのテスラAIデーの注目ポイント4選」 . techcrunch.com . Techcrunch . 2021年8月20日閲覧
  25. ^ Kostovic, Aleksandar (2021年8月20日). 「Tesla、人工知能トレーニングを制覇するために設計されたD1 Dojoチップに500億個のトランジスタを搭載」 . Tom's Hardware . 2023年6月30日閲覧。
  26. ^ Moore, Samuel K. (2024年4月30日). 「ウエハースケールコンピューターの波が到来するだろう。TSMCの技術により、現在は1つのバージョン、2027年にはより高度なバージョンが登場するだろう」 . IEEE Spectrum . 2024年6月23日閲覧
  27. ^ Morris, James (2022年10月6日). 「AIデーにおけるテスラの最大のニュースは、オプティマスロボットではなく、Dojoスーパーコンピューターだった」 . Forbes . 2023年4月13日閲覧
  28. ^ Novet, Jordan (2021年8月20日). 「テスラ、データセンター内でAIモデルを訓練するためのチップを発表」 . cnbc.com . CNBC . 2021年8月20日閲覧
  29. ^ Shahan, Zachary (2021年8月19日). 「NVIDIA: TeslaのAIトレーニング用スーパーコンピューターはNVIDIAのGPUを搭載」 . CleanTechnica . 2021年8月19日時点のオリジナルよりアーカイブ。
  30. ^ a b cタルペス、エミール;サルマ、デブジット・ダス。ウィリアムズ、ダグ。アローラ、サヒル。クンジャン、トーマス。フローリング、ベンジャミン。ジャロット、アンキット。ション、クリストファー。プールナ、チャンドラセカール。サマント、ヴァイデヒ。シシリア、ジョン。ニヴァルティ、アナンサ・クマール。ラマチャンドラン、ラグヴィル。フィッシャー、ティム。ベン・ハーツバーグ(2023-05-15)。 「テスラのエクサスケールコンピュータ、DOJOのマイクロアーキテクチャ」。IEEEマイクロ. 43 (3): 31–39ビブコード: 2023IMicr..43c..31T土井: 10.1109/MM.2023.3258906ISSN 0272-1732 
  31. ^ a bハミルトン、ジェームズ(2021年8月)。「Tesla Project Dojoの概要」展望