AI特化回路を搭載するVolta世代Tesla V100版のDGX-1が出荷

Volta世代Tesla V100を搭載するDGX-1が出荷

今週の水曜日、NVIDIAはVolta世代のTesla V100を搭載するDGX-1が出荷されたと発表しました。出荷された先は医療分野においてAIや機械学習を用いたアプリケーションに焦点を当てている研究グループMGH & BWH Center for Clinical Data Science (CCDS)です。

Tesla V100版DGX-1はDeep Learning時の理論値が960 TFLOPS

Telsa V100版のDGX-1はAI関連の機能が大幅に強化されています。ディープ・ラーニング時の浮動小数点数演算性能の理論値は960 TFLOPSに上ります。

これはTesla V100のTensor FLOPSと呼ばれるAI関連のワークロードに特化した性能値に由来します。Tesla V100のTensor FLOPS値は、1基あたり120T Tensor FLOPとなっていて、DGX-1には1システムあたりで同プロセッサが8基搭載されています。よって120T x8で合計960T Tensor FLOPSと算出できます。

この値はTesla P100版のDGX-1を遥かにしのぐ値です。Tesla P100版のDGX-1はFP16の理論性能が170TFLOPSとなっています。Tesla V100版のDGX-1の値960TFLOPSはこの5.65倍となっており、大幅に強化されていることが分かります。Tesla P100にはTensor FLOPSに当たる性能値は無いので、この比較は少々雑ではありますが、Tesla V100版のDGX-1の潜在能力が見て取れるでしょう。

DGX-1の筐体は3Uラックマウントシステムとなっていますので、1Uあたり320T Tensor FLOPSという驚異の密度となります。消費電力は3200Wとなっていて、1ワットあたり300G Tensor FLOPSという驚異の電力効率となります。これまでにない高効率のAIワークロードが期待できます。

Tesla V100に搭載されるTensor Core

Tesla V100は主にAI関連のワークロードに使用されるTensor Coreを新たに搭載しました。これはTesla P100と比べて特筆すべき進化だと言えます。

Tensor FLOPSはその名の通りディープ・ラーニングなどで要求される大量のテンソルの計算に対する性能値です。16bitと32bitの混合精度の浮動小数点数の融合積和演算(FMA)として実装されていて、きちんと浮動小数を使用するのでFLOPS(FLoating Operation Per Seconds)という呼び方がされています。

Tensor Coreが上手く機能するかはソフトウエア次第だと言えるものの、Tesla V100は既に高い性能を発揮しています。量産開始前の段階でTesla P100よりも2.43倍速くAIワークロードを完了しているようです。そのベンチマークはResNet50, MS Cognitive Toolkit, 90エポック, 1.28M ImageNetデータセットで計測され、完了時間はTesla P100 x8が18時間に対してTesla V100 x8が7.4時間でした。

更に進化したTesla V100は今後どのように世界を変えるでしょうか。

関連記事

NVIDIA Tesla V100と言うモンスターGPU、120 Tensor TFLOPS、5120 CUDAコア

Tesla V100とTesla P4を備えるHGXリファレンス・アーキテクチャを導入するBaidu

ソース

http://www.anandtech.com/show/11824/nvidia-ships-first-volta-dgx-systems

http://www.anandtech.com/show/11367/nvidia-volta-unveiled-gv100-gpu-and-tesla-v100-accelerator-announced

https://www.nvidia.com/en-us/data-center/tesla-v100/

Add a Comment

メールアドレスの入力は任意です。(公開されることはありません)