スーパーコンピューターランキングTOP500の現在の上位10システムを紹介 4位-1位

4位 アメリカ LLNL 「Sequoia」

4位にランクインしているのはアメリカのローレンス・リバモア研究所LLNLのSequoiaです。理論ピーク性能は20.1327FLOPSで、Linpackベンチマークのスコアは17.1732 PFLOSです。システム全体の消費電力は7,890kWです。

コア数は1,572,864個と京の705,024個の2.23倍もありますが、消費電力は京よりかなり小さく62%しかありません。さらにアルゴンヌ国立研究所Miraと比べると面白くて、コア数、理論ピーク性能、Linpackベンチマーク、消費電力が全てきっかり2倍です。Blue Gene/Qが完全にスケーラブルなマシンであることが分かります。

京においては実効効率の出しやすさの重要性を語りましたが、このシステムも実効効率をかなり引き出しやすいシステムです。Sequoiaは京と世代が近く、非インテルのプロセッサで構成されているという特徴からしばしば引き合いに出されます。HPCGでのベンチマークでは0.3304で4位で、Graph500のベンチマークは23.751 TTEPSで現在3位です。理論性能に対する実効効率の高さを考えれば京が圧勝です、ベンチマークで理論性能に対して実効効率が出ているということは、より複雑で実用的なプログラムで良い実効性能が得られるということです。そういった面では京に軍配が上がるでしょう。

当初SequoiaはTOP500、Graph500、Green500の三冠を達成しました。Graph500では日本のソフトウエア技術の進歩によって出された京の記録38.6214 TTEPSに抜かれて2位に転落し、中国の神威太湖之光の記録に抜かされて3位に転落しました。また4位のシステムはアルゴンヌ国立研究所のMira、で5位、6位も Blue Gene/Qのシステムです。7位にようやくインテル系のプロセッサを使った天河二号が出てきますが、そのスコアは京の約19分の1程度の2.06148 TTEPSです。話にならないスコアですね。更にその後12位までがBlue Gene/Qのシステムです。とにかくGraph 500ではIBMのBlue Gene/Qをよく見ます。Blue Gene/Qはビッグデータの解析に定評のあるシステムで、そのフラッグシップがSequoiaであると言うことです。京はベンチマークでこそ勝っていますが、裾野が広がっているかという面では完敗でしょう。

話は変わりますが、ローレンス・リバモア国立研究所は1952年カリフォルニア大学の放射線研究所としてリバモアに建てられた研究所がルーツです。アメリカの歴史のある研究所には、漏れ無く核開発の歴史があるようで、この研究所はプロジェクト・シャーウッドと言う核融合に関する研究プロジェクトを行っていました。また、冷戦時代は核兵器の開発競争にも参加していたようです。現在は国家核安全保障局NNSAの傘下にある研究所で、Sequoiaが作られた目的も核兵器のシミュレーションのようです。どんな素晴らしい技術も軍事の匂いがすると萎えるのは私だけじゃないはずです。

3位 アメリカ オークリッジ国立研究所 「Titan」

3位にランクインしたのはアメリカオークリッジ国立研究所のGPGPUスーパーコンピューターTitanです。理論ピーク性能は27.1125 PFLOPSでLinpackベンチマークのスコアは17.5900 PFLOPSです。システムの消費電力は8,209kWです。

Cray社のシステムを使ったGPGPUスーパーコンピューターで、x86 16コアのAMD Opteron 6274とSMX14コアのnVidia Tesla K20X、それぞれ18,688個で構成されています。コア数は560,640個です。

GPUでTitanというとnVidiaのハイエンドグラフィックボードGeforceのTitanを思い浮かべる人は多いのでは無いでしょうか。GeforceのTitanはスーパーコンピューターTitanの記念モデルで、2013年2月に発表された初代Geforce GTX TitanはスーパーコンピューターのTitanに使われているTesla K20Xをベースにして作られています。実際グラフィックとは関係の無いはずの倍精度浮動小数点数演算能力が高く、パーソナルスパコン向けのボードなどと呼ばれていました。その特徴は2014年に発売されたTitan BlackとTitan Zにも受け継がれましたが、その後のTitanシリーズは倍精度演算能力は抑えられ、現在の最新モデルのnVidia Titan Xもそのような尖った特徴の無い普通のハイエンドグラフィックボードとなっています。

TitanはnVidiaの技術の結晶です。GPGPUとはGeneral Purpose、つまり汎用演算にグラフィックの専用演算機であるGPUを使うという意味です。nVidiaはCUDAという並列コンピューティング向けの環境を整備し、CライクなAPIを提供し、GPGPUを推進して来ました。

GPGPUの強みは主に経済面でした。高性能のゲーミングプラットフォームの開発コストでHPC市場にも打って出ることが出来るようになります。開発コストが非常に重いプロセッサ業界で、新規に開発をせずとも別の市場で売れると言うのはとてつもなく大きな強みになります。勝ち上がるにはスケールメリットが鍵となる業界で、大量に出荷出来るということがグラフィックボードとしても売るから安く出来るというのがGPGPUの持つ大きな強みの一つです。しかしGPUはそもそもグラフィックに必要な半精度演算の演算能力しか念頭に無いもので、実際初期のコンピューティング専用ボードTeslaは倍精度演算が出来ない代物でした。性能の面ではあまり良くなかったのです。

しかし近年のCUDAコプロセッサは性能の面でも素晴らしくその象徴となるのがこのスーパーコンピューター「Titan」です。Titanは京やSequoiaと同じくらいの世代ですが、少なくともTOP500においては両者を抑えて3位になっています。Linpackを始めHPCのベンチマークの性能は全て倍精度の話なので、既に単精度演算だけしか出来ないプロセッサでは無くなっていると言うことです。Titanに使われたTesla K20XはHPC向けにチューニングのされたKeplerコアGK110で最初に登場した製品で、理論性能で単精度で3.935 TFLOPS倍精度で1312 TFLOPSという圧倒的な計算能力を誇りました。消費電力も235Wに抑えられて、一気に代表的なHPC用のコプロセッサボードに成長しました。CUDAコプロセッサは価格面のこともあり、もはやIT界でHPCの裾野を広げる役割を果たしているとさえ言えます。

2位 中国 中国人民解放軍国防科学技術大学 「天河二号/Tianhe-2」

2位にランクインしているのは中国の天河二号です。中国は近年HPC業界でも急速に力を伸ばしていて、その背景には中国の軍拡があると言われています。このランクインには全米が慄きました。理論ピーク性能は54.9024 PFLOPSで、Linpackベンチマークは33.8627 PFLOPSです。消費電力は世界最高の17,808kWです。

x86 12コアのIntel Xeon E5-2692 2wayとx86 57コアのプロセッサボードIntel Xeon Phi 3wayのノード16000機で構成されています。一見x86ばかりですが、Xeon Phiは512bitのSIMD命令を使って性能を出すことが前提のボードなので、実質x86+SIMDコプロセッサという構成です。

なぜこのランクインに全米が慄いたのかと言うと、アメリカは科学技術競争による牽制のし合いの戦争である冷戦を長い間戦い続けて来たからです。軍事力と科学技術の競争力はアメリカにとってはほとんど等価で、中国という軍事的なライバルがアメリカを超える力を付けつつあることを恐れたのです。アメリカがビビってる証拠として、アメリカが中国の公的機関向けにXeon Phiの輸出を禁止した事実が挙げられます。自分より強い相手は邪魔者ってわけです。

このスーパーコンピューターには日本でも様々な議論がありました。Xeon Phiを馬鹿みたいに沢山繋げただけという批判や、もう日本は中国には勝てないんじゃないかという悲観的な意見も見られました。また、Xeon Phiが止められたのだから天河二号はもう終わりだという意見も聞いたことがあります。

まず、x86のメニーコアボードXeon Phiの賜物だという種類の意見ですが、ただ繋げばLinpackベンチが回るわけではありませんし、OSが中国独自のKylin Linuxであることや、そもそもx86と言ってもSIMD前提で性能を出すのがそこまで簡単ではない事を踏まえると中国の技術力の向上は否めません。日本は勝てないんじゃ無いかという意見もありますが、日本のエクサスケールスーパーコンピューターの開発計画ポスト京プロジェクトはプロセスルールの変更というアップグレードに伴い2年ほど遅れるということを除けば順調に進んでいます。また、Graph500では天河二号は京とは比べ物にならないほど低いスコアですし、少なくとも私は日本が負けているとは微塵も思いません。京の次世代が出るまではハードウエアを作らずソフトウエアの練度を上げていくという至極当然の戦略を取っているだけのように思えます。Xeon Phiが止められたから天河二号が終わるかと言うとそうでもありません。天河二号はアップグレードパスとしてARMを選ぶつもりです既にPhytiumという企業のMarsコアというARMv8 64コアのメニーコアボードが候補に上がっていて、こんなところで簡単には終わらないでしょう。ARMは2048bitのスケーラブルなSIMD命令SVEを設計していますし、天河二号は死ぬどころかもっと凄いスーパーコンピューターになって帰ってくると思います。

確実に言えるのは中国は次世代のエクサスケールのスーパーコンピューターの開発に確実に名乗りを上げるということです。技術的な素地は出来上がっていると言うしか無い状況ですし、軍拡路線なので予算もどんどん出します。スーパーコンピューターは演算能力が桁で変わらないと出来ることに大した差が無いと言われていて、たかだか10倍未満の開きでは判断するのは早すぎます。で、ソフトウエアはどうなんですか。と続報を待つ姿勢が正しい姿勢と言えます。

1位 中国 国家並列計算機工学技術研究センター 「神威太湖之光/Sunway TaihuLight」

中国のワンツーフィニッシュです。1位は中国の国家並列計算機工学技術研究センターが開発した神威太湖之光です。現在Googleで神威太湖之光と検索するとQiitaのIntelビビってるという挑発的なタイトルがトップに来ます。とにかくこのランクインは衝撃的でした。理論ピーク性能は125.4359 PFLOPS、Linpackベンチマークは93.0146 PFLOPSです。

まず第一に衝撃的なのがプロセッサの構成です。神威太湖之光に使われれているプロセッサは260コアのメニーコアプロセッサ「SW26010」です。まずコア数が桁違いで驚かされますが、さらに驚きなのがコアそれぞれがSIMD命令を備えていると言うことです。このSIMDは64bit x 8のSIMDで、512bitとベクトル長がIntelのXeonに匹敵します。この260コアのプロセッサが40960個集まって神威太湖之光を構成しています。キャッシュでは無くスクラッチパッドを使用している点も驚きです。スクラッチパッドとは殆ど生のフリップフロップで、高速なのですがシンプル過ぎて使い勝手がとてつもなく悪いです。埋めることが難しく、構造的には高速なのですが全体として遅くなることがほとんどです。スクラッチパッドを仕込んで成功したプロセッサと言えばSonyのPS2のEmotion EngineかIBMのCellくらいで、HPC業界だけでなくIT界全体に既に枯れたものであるという定説がありました。そもそもなぜスクラッチパッドなんだと言う疑問が残りますが、ベンチマークでスコアが出ているので何も言えません。

第二に衝撃的なのがコアのプロセスルールです。なんと40nmという枯れたプロセスを使用しています。これも何故なのかという疑問が残ります、メニーコアプロセッサでより細かいプロセスを使わない理由がありません。より高集積化しより多コア化できますし、同じ規模なら少電力化が出来ます。最低でも28nmプロセスでしょう。28nmプロセスなら既に新興のARMプロセッサメーカーにも使われているくらい安価に製造できますし、40nmプロセスよりは大分マシです。あえて40nmを使ったということが私には不可解過ぎて、40nmで設計してから今までずっとファームウエアを書いていたのでは無いかという妄想までしてしまいます。

第三に衝撃的なのが、その上でLinuxベースのOS「RaiseOS」やCやOpenACC対応の高度なコンパイラが動いているということです。スクラッチパッドメモリはそのシンプルさ故に、明示的にメモリアドレスを指定する必要があります。スクラッチパッドはキャッシュよりも大幅に埋めるのが難しいということです。キャッシュが埋まるかどうかメモリ帯域が重要な演算資源の一つに数えられるHPCでは最重要と言っても良いことで、このシステムはスペックを見る限りはそういったプログラムが死ぬほど書きづらいはずなのです。そんな中でLinpackでここまでのスコアを出せるプログラムを出力出来るコンパイラを書くというのは、本当に神がかっているとしか言いようの無い超技術です。神威太湖之光は高度なコンパイラどころかLinuxまでこんなマシンに乗せてしまっています。これが出来る国が他にあるのでしょうか。

そして何より衝撃が大きかったのはGraph500 2位及びHPCG 3位ランクインです。もうわけが分かりませんでした。こんな結果は非科学的です。魔法でも使ったんじゃないかと思いました。正直なところ私にはなぜこんなスコアが出ているのか説明のしようがありません。用いられている技術のわけの分からなさでは他のどのスパコンも敵いません、神威太湖之光が圧勝です。納得の行く仮説を立てるとすれば、40nmの時代からTOP500とGraph500とHPCG向けのファームウエアをずっと書いていたという非現実的なものくらいです。今後のソフトウエアのブラッシュアップで更に伸びる可能性は十分にあり、神威太湖之光は今まで世界の誰も実用的なものが作れなかった方式で、世界最高のものを作ってしまったと評価せざるを得ません。

とにかく1位の神威太湖之光には驚かされました。やはり技術の進歩というのは見ていて面白いものです。10000文字を超えるエントリにお付き合いいただきありがとうございます。

One comment

Add a Comment

メールアドレスの入力は任意です。(公開されることはありません)