「Intel Xeon Phi KNL」「nVidia Tesla P100 NVlink」についてCray社が動き出した

話題の最新コプロセッサ「Intel Xeon Phi KNL」と「nVidia Tesla P100 NVlink」

現在HPC業界で最も注目すべきハードウエアを挙げろと言われれば「Intel Xeon Phi KNL」と「nVidia Tesla P100 NVlink」の2つが挙がることでしょう。これらのコプロセッサの注目度はとてつもなく高いです。

Intel Xeon Phi KNL(以下Phi KNL)はXeon Phiブランドではありますが、全世代と違いIntel Atomプロセッサのカスタムアーキテクチャが採用されています。Atomプロセッサからの主な変更点はベクトル長512bitのSIMD命令なのですが、これは前世代のXeon Phiとの互換の無い命令のようです。Phi KNLは第二世代のPhiとされていますが完全に新しいメニーコアプロセッサボードです。IntelはPhi KNLに積んだSIMDをXeonでも使えるようにする計画を明かしていて、nVidiaが支配するコプロセッサ市場に本腰を入れて参入してくるようです。

Phi KNLにはnVidiaのTeslaに対して明らかなアドバンテージがあります。単体でx86アーキテクチャに対応したLinuxが動く点です。ビジネスは常にコストと見込める利益を天秤にかけながら進められていくものですが、Linuxがそのまま動いてしまうという特徴は、開発コストを大幅に低減すると言う意味で非常にビジネスに適した特徴であると言えます。現在サーバー事業において主流となっているOSはLinuxです。Linuxが動くと言うことは買って現在サーバー上で稼働しているシステムをそっくりそのまま移植するだけで動いてしまうということです。コプロセッサをサポートするためのあらゆる手間と時間を完全に省いてしまえることになります。

IoTやビッグデータ、ディープラーニングと言った近年のバズワードを見る限り、産業におけるHPCはそろそろ次のステージに進むでしょう。莫大な計算資源が大小様々な企業によって多様な使われ方をする時代がやってきます。Linuxで動くあらゆるソフトウエア資源を流用出来るという特徴は、ビジネスにおけるHPC戦略の選択肢を大幅に増やし、新しい時代に合ったコプロセッサとして受け入れられて行く可能性は高いでしょう。

一方nVidia Tesla P100(以下P100)はチップ間通信規格のNVlinkと三次元積層メモリのHBM2による豊かな帯域幅が注目されています。NVlinkはGPU-GPU間、GPU-CPU間においてPCIe Gen3 x16の5倍にあたる80GB/sの帯域幅を確保する通信規格で、現在Tesla P100とIBMのPower8が対応しています。IBMはPower9でNVlink2.0に対応することも発表していて、この2社による協力戦線にも注目が集まっています。HBM2は既にAMDが採用している次世代のメモリ規格で、P100はこの規格で720GB/sのローカルメモリ-GPU間帯域を確保しています。

HPC業界においては、実際にプログラムを走らせた時のパフォーマンスは帯域に比例すると言われているほど、帯域幅は重要な要素になります。PCIeの上位規格を作ってまでチップ間通信の帯域幅を確保した点にnVidiaの本気を感じます。また理論性能も半精度21.2TFLOPS、単精度10.6TFLOPS、倍精度5.3TFLOPSととてつもない数字となっていて、他の追随を許していません。Phi KNLのセールスポイントが「便利さ」だと言うのなら、P100のセールスポイントは「圧倒的な性能」でしょう。十分に開発コストをかけられるプロジェクトであればP100の方が良い物が出来ると言えます。

Crayが動いた

Cray社は老舗のスーパーコンピューターメーカーです。長年培われた技術は確かなものがあり、世界トップクラスのHPCシステムを社内だけで構築出来るほどの技術力があります。実際TOP500の上位10システムのうち5つがCray社製のスーパーコンピューターで、注目すべきHPC企業であることを疑う者は居ないでしょう。

Cray社はHPCシステム「XC40」にPhi KNLを追加したコンピュートノードが、業界標準の1つであるベンチマーク「STAC-2」において世界最高のスコアを叩きだしたことを発表しました。コンピュートノードのスペックは以下の通りです。

  • CPU Intel Xeon Phi 7250(KNL)

  • SDRAM 32GB x6 =192GB

  • Intel MCDRAM 16GB

このシステムではPhiはコプロセッサとしてではなくメインプロセッサとして動作しています。KNLの純粋な実力を見ることが出来るシステムと言えます。Intel MCDRAMはマルチチャネルDRAMの略で、三次元積層メモリのIntel流の実装です。CPUと同じシリコン上に実装されているようで、400GB/sの帯域幅を確保出来るそうです。このシステムではプロセッサのラストレベルキャッシュとして動作します。

Phi 7250はAtomで使われていたSilvermontアーキテクチャのコアが68基搭載されているチップですがHaswell EXアーキテクチャのコアを18基搭載しているXeon E7-8890 V3 x4プロセッサ構成の合計72コアのシステムより29%も良いスコアを出したそうです。またGPUを2つ搭載したTesla K80のGPGPUシステムよりも36%高速で、ライバルに引導を渡す結果となりました。理論性能ではK80とPhi 7250は大差は無いのですが、やはりOSが主力のプロセッサ上で動いているというのは大きいらしく、ボトルネックの発生のしづらさや性能の引き出しやすさが効いた結果だと思います。

さてCrayのXC40のPhi 7250バージョンですが、既に京都大学が導入を決定しています。1800プロセッサ構成で理論性能は倍精度で5.48 PFLOPSとのことです。プロセッサ4つがPCIe 3.0 x16で繋がり一つのブレードとなります。ブレードからはInfinibandが伸びていて、40Gbps(5GB/s)という比較的高速なlanが使えます。ネットワークトポロジーはとにかくケーブルを大量に伸ばすDragonflyというCrayの開発したトポロジーで、非常に高速なインターコネクトが期待できます。ブレード間やノード間の帯域幅が広く、純x86システムであることから、非常に幅広い応用が期待できます。このシステムは民間にも貸し出されますが、民間にも貸し出す計算資源としては最高のスーパーコンピューターだと思います。

GPGPUサーバーではどう戦うのか

P100についてはIBMのPowerコアを使ったシステム「S822LC」が最強です。Crayも興味を示しているようですが、現状Power8以外のCPUではPCIeを使うしか無いので、CPU-GPU間の転送のボトルネックが無視出来なくなるはずです。IBMが最高のものを作ってしまった今、Crayがどう動くのかについては非常に興味深いです。nVidia謹製のDGX1の存在も悩ましいところでしょう。ソフトウエア的なツールを情実させたところで、CUDAでのプログラミングが主となるGPGPUサーバーにおいては、nVidia以上のサポートをするというのは不可能でしょう。

P100は、恐らくディープラーニングにおいては最強のコプロセッサです。半精度20TFLOPS以上も演算能力がありますし、GPU間がNVlinkで繋がれることも、大きなシステムを構成する場合に大きなアドバンテージとなります。Crayはディープラーニング向けのGPGPUサーバーについてどのような動きを見せるのか、注目していきたいです。

One comment

Add a Comment

メールアドレスの入力は任意です。(公開されることはありません)