NVIDIA Tesla V100と言うモンスターGPU、120 Tensor TFLOPS、5120 CUDAコア

最大で120TFLOPSを達成する新しい仕組みを導入したVolta

先日NVIDIAが発表したTesla V100は、特定のワークロードで最大で120TFLOPSを達成する新しい仕組みを導入したGPUです。単精度の理論性能は15TFLOPSに過ぎないTesla V100ですがTensor Coreと言う新しい特殊なコアを導入することでこれを達成しているようです。

devblogs.nvidia.comによると、Tensor Coreは4×4行列の乗算と加算を行うユニットにようです。精度はFP16とFP32が混ざります。一つのTensor Coreでクロック当たり64セットの乗算と加算を行い、それがストリーミング・マルチプロセッサ(SM)内に8ユニット存在します。乗算と加算の2つの演算が64セットで128、それが8ユニットでSM当たり1,024 FLOPS/Clockの能力になるようです。Tesla V100はこのSMが80基搭載されているので、全体の能力は81,920 FLOPS/Clockとなります。ブースト・クロックが1,455 MHzなので118.374 TFLOPS ≒120 TFLOPSが達成されます。NVIDIAではこれをTensor FLOPSと呼んでいるようです。

限定された用途に向いているとはいえ、120TFLOPSと言えば2Uもしくは4Uを消費するGPGPUサーバー・ユニット並の数値です。1チップでこれほどの演算能力が出てしまうと言うことは驚くべきことでしょう。大きなブレイク・スルーと言って良いのかも知れません。

実アプリでも前世代のTesla P100から大きく進化

Voltaは12nm FinFETプロセスで製造され、80 SM, 5120 CUDAコアとTesla P100(56 SM, 3584 CUDAコア)から43%の大規模化を達成しています。トランジスタ数211億、ダイ面積815mm^2とどれを取っても異次元のスペックです。

しかしTesla V100の進化は、AI関連のワークロードにおいては43%に留まらないようです。ResNet50と呼ばれる手法のディープ・ラーニング・トレーニングでは、最大でTesla P100比で3.7倍(270%増)のパフォーマンスが得られたようです。たったの一世代で性能を劇的に進化させました。この進化はAIが活躍するあらゆるイノベーションを加速させるでしょう。

数値演算コプロセッサとしても最高の性能

またVoltaでは、より最適化をしやすい計算モデルを採用したようです。プログラムのスレッドが独立してスケジューリング出来るようになりました。Tesla V100は120 Tensor TFLOPSの計算能力を有するAIプロセッサであると同時に、単精度演算15 TFLOPS、倍精度演算7.5 TFLOPSを誇る数値演算プロセッサでもあります。新しく開発されたGPU間のインターコネクトNVLink2.0は最大で150GB/sの帯域幅を有し、HBM2メモリは900GB/sという広い帯域幅を実現するようです。AI開発以外の用途でも世界最高のプロセッサだと言えるでしょう。

関連記事

Radeonがディープラーニング向けGPGPUコプロセッサのプロダクトライン「Radeon INSTINCT」を発表

米Supermicro、中国Inspur、英Boston LimitedがTesla P100を用いた高密度サーバーを発表

ソース

https://devblogs.nvidia.com/parallelforall/inside-volta/

One comment

Add a Comment

メールアドレスの入力は任意です。(公開されることはありません)