SC14 - Gordon Bell氏による半世紀におよぶスパコンの歴史の回想
また、この講演では触れられていないが、Bell氏は、約10年に1度の割合で、半導体やストレージ、ネットワークなどの技術革新で、より低価格な新しいクラスのコンピュータが作られるという「Bellの法則」の提唱者としても知られている。そして、シリコンバレーにあるComputer History Museumは、Bell氏が寄贈した個人のコレクションを基にして始まっており、歴史の保存という分野でも重要な貢献を行っている。
Gordon Bell氏は現在80歳であるが、現役で、マイクロソフト社のシリコンバレー研究所の研究員を務めている。
Seymour Cray賞の受賞者は記念講演を行うのが恒例となっており、SC14においてBell氏の講演が行われた。
講演のタイトルは「半世紀のスーパーコンピューティングの歴史の個人的回想」というもので、「驚くべきレースのエンジニア、研究者、官僚、サポーター、投資家、批評家、そして、歴史家として」という注釈がついている。
スパコンの発展は、1965年から1995年に掛けてのCrayの単一メモリコンピュータの時代、1984年以降のマルチコンピュータ、別名、クラスタの時代があり、その中に1984年から1994年に掛けてのKiller Micro(マイクロプロセサ)への移行の時期があった。
理想的なスパコンの進化は、速度、メモリ量、並列性などが時間とともにスケールして行くべきであるが、初期には可能であったクロックの向上と単一メモリのマルチプロセサの大型化はできなくなり、現在では多数のコンピュータをつなぐスケールアウトだけになってしまった。
なお、これらの写真に写っているのは、IEEEの授賞委員会のSeymour Cray賞選考担当のローレンスバークレイ国立研究所副所長のHorst Simon氏と、招待講演セッション議長の議長のヒューストン大のBarbara Chapman教授である。振り返ってみると、Univacの「LARC」とIBMの「Stretch」、そしてManchester大学の「Atlas」が科学技術計算用のスーパーコンピュータというクラスのマシンを作り上げた。
次の1960年のLARCの写真は貴重なもので、Sidney Fernbach賞のFernbach、当時はローレンスリバモア研究所の所長ではなかったかと思われるが、後に国防長官になったHarold Brown、水爆の父と呼ばれるEdward Tellerが並んで写っている。そして、LARCに対抗してIBMが作ったのが、次の写真のStretch(IBM 7030)である。
その次はManchester大のAtlasで、Ferrantiが製造し、毎秒100万命令を実行できる素晴らしマシンであったとBell氏は回想している。
そしてプログラミングには「FORTRAN」が作られた。FORTRANは1957年にIBM 704用のコンパイラがリリースされ、1960年の仕様化から、最近ではFORTRAN 2008が作られており、現在も現役の言語である。
そして、CDC(Control Data Corp.)が「CDC6600」と「CDC7600」を作った。スーパーコンピュータというマシンクラスを確立したマシンと言える。
しかし、1964年当時、CDC6600の話を聞き、Bell氏は「なんてこった。どうやってこんなものを作ったんだ」と思ったという。
CDC6600と比べると、Bell氏が開発中のPDP-6は、30万ドルと1/10の価格、5000トランジスタと1/120のトランジスタ数でクロックも5MHzと半分であったという。
さらに高い性能を目指して、Amdahlの法則の制約の中で並列性を探すという努力が行われた。
64並列SIMDの「Illiac IV」、メモリ上にベクトルを置く「CDC STAR」や「ETA10」、TIの「ASC」などであるが、これらはうまく行かず、最終的に成功したのは「Cray 1」のベクトルアーキテクチャであった。
Cray 1は、スカラ性能はCDC7600の2倍でしかなかったが、160MFlopsとCDC7600の4~5倍の演算性能を持ち、スーパーコンピュータと言えばCray 1を指すようになった。
左の図はLSIチップのトランジスタ数の増加を示すもので、使用できるトランジスタが増加するにつれて最初の4bitプロセサから8bit、16bit、32bit、64bitとデータ幅を増加させ、さらに1チップに集積する64bitコアの数を増やしている。右の図は、TTL、ECLとCMOSロジックの性能の推移を示すもので、TTL、ECLの性能改善は14%/年であるのに対してCMOSの性能改善のペースは速く、1996年にはTTLを抜き、1997~1998年にはECLも抜いた。その結果、TTLやECLの中小規模の集積度のSSI、MSIを並べて作るミニコンピュータやワークステーションは競争力を失い死滅することになった。これにより"Killer Micro"の時代となった。
しかし、並列化できる部分は限られており、並列化による性能向上には困難があることがAmdahlの法則で示された。このため、1985年にAlan Karpが、1995年までに並列化により200倍の性能向上を達成すれば100ドルの賞金を提供するという賞を作ったが応募が無く、Bell氏は、200倍は難しすぎると考え、1992年までに10倍、1997年までに100倍を実現するという目標を提示し、毎年ベストの結果に1000ドルの賞金を出すことにした。
これが1987年のGordon Bell賞の始まりである。
1994年にJim Grayと話し合って、スケーラブルなネットワークこそがプラットフォームであるという結論に達した。なぜなら、ムーアの法則で使えるトランジスタは指数関数で増え、標準化された部品があふれ、インタフェースの標準化で競争が激化し、進歩が加速されるからである。この方向に向かう経済的な圧力は巨大で、ネットワーク接続は急速に進むと考えられることから、我々は共有メモリのコンピュータを諦めることにしたという。
そして、1994年には分散メモリのコンピュータ間でメッセージのやり取りを行うMPI(Message Passing Interface)1.0仕様が公開され、分散メモリのシステムの採用が急速に進んでいく。
その結果、今日では、日本の京コンピュータ、米国のSequoiaやTitan、中国のTianhe-2など巨大なネットワーク接続のスパコンが作られるようになっている。
そして、Tianhe-2を開発した中国の国防科技大は2015年に100PFlops、2018年には1ExaFlopsというプランを掲げており、SGIも2018年までに500倍に性能を向上させ、1ExaFlopsを実現する計画を持っている。また、現在の性能向上の傾向を見ると、2018-2020年に1ExaFlopsに達すると予想される。
今後、HPCの世界で必要となるチャレンジは、
1994年から20年間続いてきた指数関数の性能向上をいかにして継続するか。
2007年にJim Grayが述べた科学の第4のパラダイムの実現
大量の実験データの解析によって科学を行う
モデルのシミュレーションで得られた大量データの解析によって科学を行う
データ科学と計算科学の融合
HPCをサポートするクラウドの進化
であると述べて、ビッグデータ処理と計算科学の融合とクラウドでのHPCサポートの重要性を強調して、Bell氏は講演を締めくくった。