PascalアーキテクチャGP107コア、14nmプロセス採用のGeforce GTX 1050tiは低火力ディープラーニングコプロセッサとして買いか

Geforce GTX 1050/1050ti

nVidiaよりGeforce GTX 1050/1050tiのアナウンスがありました。PCIeの最大供給能力の75W以内に収まり、補助電源の要らない仕様となっています。補助電源の要らないGeforce GTXはMaxwellアーキテクチャのGeforce GTX 750ti以来となりますが、Pascalアーキテクチャに刷新され28nmプロセスから14nmプロセスに更新されたGeforce GTX 1050tiの実力はどうなのでしょうか。

以下はスペックの比較です。

GTX 1060 6GB GTX 1060 3GB GTX 1050 Ti GTX 1050 GTX 750 Ti Radeon RX460 Tesla P100
CUDAコア数 1280 1152 768 640 640 (GCN 896) 3584
ベースクロック 1.51GHz 1.51GHz 1.29GHz 1.35GHz 1.02GHz 1.09GHz 1.33GHz
ブーストクロック 1.71GHz 1.71GHz 1.39GHz 1.46GHz 1.09GHz 1.20GHz 1.48GHz
メモリ方式 GDDR5 GDDR5 GDDR5 GDDR5 GDDR5 GDDR5 HBM2
メモリ転送レート 8GT/s 8GT/s 7GT/s 7GT/s 5.4GT/s 7GT/s 1.41GT/s
メモリバス幅 192-bit 192-bit 128-bit 128-bit 128-bit 128bit 4096bit
メモリ帯域幅 192GB/s 192GB/s 112GB/s 112GB/s 86.4GB/s 112GB/s 720GB/s
メモリサイズ 6GB 3GB 4GB 2GB 2GB 4GB 16GB
FP16
ベース 19.04TFLOPS
ブースト 21.22TFLOPS
FP32
ベース 3.86TFLOPS 3.47TFLOPS 1.98TFLOPS 1.73TFLOPS 1.31TFLOPS 1.95TFLOPS 9.52TFLOPS
ブースト 4.37TFLOPS 3.94FLOPS 2.14FLOPS 1.86TFLOPS 1.40TFLOPS 2.15TFLOPS 10.61TFLOPS
FP64
ベース 108GFLOPS 120GFLOPS 62GFLOPS 54GFLOPS 41GFLOPS 122GFLOPS 4.76TFLOPS
ブースト 123GFLOPS 137GFLOPS 67GFLOPS 58GFLOPS 44GFLOPS 134GFLOPS 5.30TFLOPS
コア GP106 GP106 GP107 GP107 GM107 GCN 4th GP100
トランジスタ数 4.4B 4.4B 3.3B 3.3B 1.87B 3B
ダイサイズ 200mm^2 200mm^2 135mm^2 135mm^2 148mm^2 123mm^2
PCIe 3.0 x16 3.0 x16 3.0 x16 3.0 x16 3.0 x16 3.0 x8 (NVlink 1.0)
プロセス TSMC 16nm TSMC 16nm Samsung 14nm Samsung 14nm TSMC 28nm GF 14nm TSMC 16nm
TDP 120W 120W 75W 75W 60W 75W 300W
発売日 07/19/2016 08/18/2016 10/25/2016 10/25/2016 02/18/2014 08/08/2016
価格 $249 $199 $139 $109 $149 $139

GTX 750tiとの比較

GTX 750tiと比べると面白いことが分かります、一見演算能力はかなり伸びているように見えますが、回路規模(トランジスタ数)が76%、クロックが26%伸びているのに対して、理論的な単精度の演算能力は51%しか伸びていません。Pascalアーキテクチャは単精度の効率で言えば前世代のMaxwellアーキテクチャよりも下だと言えると思います。GPGPUに振り過ぎた印象です。

GTX 750tiの電力効率、コストパフォーマンスはものすごいです。28nmという古い世代にも関わらず、未だにGPGPU用のコプロセッサとして選択肢に入ってきます。現在10000円強で購入することの出来るこのボードは、FP32理論値で22.5GFLOPS/Wという優秀な電力効率を持っています。

とは言えプロセスルールの進歩による性能の向上はとてつもないです。補助電源無しの75Wで2TFLOPSの時代が到来してしまいました。CUDAが使えて補助電源無しで2TFLOPS出るコプロセッサが139ドルです。電力効率もFP32理論値で26.4GFLOPS/Wと改善されていますし、市場への訴求力は十分にあるでしょう。

Radeon RX460との比較

Radeon RX460と比較してみます。一見同じような性能に見えますが、明確に差別化出来る点が2つあります。一つはCUDAに対応していること、もう一つはPCIe 3.0のレーン数が倍になっていることです。グラフィックスの描画ではこれらがネックになることは無いかと思いますが、GPGPUコプロセッサとしてみた時には大きな違いとなるはずです。

GTX 1060 6GBとの比較

GTX 1060 6GBと比較するにあたって、1050tiの二枚刺しを想定します。1050tiはSLIには対応していませんが、CUDAコプロセッサとしての二枚刺しは問題なく出来るはずです。

1050tiを二枚刺しした場合、TDPの合計は150Wとなります。よって消費電力は1060 6GBよりも25%程度高くなることが予想出来ます。長い時間高負荷で回す場合にはこの25%は大きな違いとなるでしょう。単精度の演算能力は3.96TFLOPSとほぼ互角となります。これらを踏まえる一見1050tiを二枚刺しにするメリットは無いよう感じます。

しかし、バスインターフェースを考慮に入れると話は変わってきます。PCIe 3.0 32レーンに対応した高級なチップセットを使っているとすれば、1050ti二枚刺しはPCIe 3.0のレーン数が倍になるという見方も出来るのです。

以前750ti二枚刺しのBlenderのCycleレンダラーのベンチマークについての記事を書きましたが、同じことが1050tiで起これば、1060 6GBよりも良いスループットが得られる可能性があります。

CUDAでのGeforce GTX 750 tiの二枚刺しについて

ディープラーニングの本番環境を想定した場合、どんなGPUもTesla P100とは勝負にならない

Tesla P100に使われているコアのGP100はGPGPUに極振りしたでPascalアーキテクチャのリミッター無しの本気のコアです。ディープラーニング向けの機能として、半精度の演算能力が単精度の倍確保出来ると言う機能を有していて、ディープラーニングで重要な半精度演算の能力では右に出るGPUはありません。FP16理論値で63.5GFLOPS/Wというとてつもない電力効率を誇っていて、ディープラーニングの本番環境でTesla P100と勝負になるGPUはありません。

おそらく自宅やオフィスで持つディープラーニング用コプロセッサはテスト用か研究用でしょう。本番環境はクラウドコンピューティング事業者から借りるのが定石となると思います。そう考えると自宅に大規模で電力を食う環境は不要となり、手頃な価格と回路規模の1050tiや750tiが自宅に作る低火力ディープラーニング環境のコプロセッサとして良い候補になるかと思います。

Add a Comment

メールアドレスの入力は任意です。(公開されることはありません)