ニュース

「Titan Xより速い!」、GeForce GTX 1070/80なぜ速い?

新世代Pascalアーキテクチャ搭載GPUの要点をNVIDIAが解説

5月18日 開催

「GeForce GTX 1080」を掲げるNVIDIAのシニアマーケティングディレクター、ニック・スタム氏

 5月18日、NVIDIA Japanは記者説明会を開催し、5月27日からの発売を予定している最新GPU、GeForce GTX 1070/1080についての詳細情報を解説した。そこではGTX 1070/1080が採用するPascalアーキテクチャの改良点や、VR向けパフォーマンスの圧倒的な向上といった事情がわかりやすく開示されたので、本稿で解説しよう。

 フラッグシップモデルとなるGTX 1080は新設計のGPUコア「GP104」を搭載したハイエンドGPU。このコアはGTX 900シリーズに採用されていた「Maxwell」の後継となる新アーキテクチャ「Pascal」を採用しており、製造プロセスに16nm FinFetを採用したことや、回路設計の最適化、高速メモリGDDR5X(G5X)の搭載などを通じて大幅な性能向上が実現されている。

 NVIDIAが「A NEW KING(新たな王者)」というとおり、GTX 1080は現行で最速とされてきたMaxwellアーキテクチャの最上位GPU「GeForce GTX Titan X」よりも高速であり、消費電力はGTX 980並みという圧倒的なワットパフォーマンス(最大3倍)が特徴だ。特に性能向上の場が大きくなっているのはVR用途で、その際の性能はTitan Xの2倍にも達する。

 実際に何がどう改良されてこのようなパフォーマンスが実現したのか。そこにはハードウェア的な改良と、ソフトウェア的な改良の両面からのアプローチがある。それを紐解くことで、まだ多くが語られていない廉価モデルGTX 1070の性能についても見えてくる。ご紹介していこう。

フラッグシップモデルとなるGeForce GTX 1080。5月27日発売で価格は599ドル。日本国内では7万円台となるか
廉価版となるGeForce GTX 1070は従来と同じGDDR5メモリを搭載。価格はぐっと安く379ドル。国内では4万円台となることを期待
GTX 1080のハイグレード版となる「Founders Edition」。高品質な外装やクーリングシステムを採用し、静音性、安定性を強化したバージョン。価格は699ドル

ブロックダイアグラムでは大差ないのに性能が大幅に向上した複数の理由

Pascalのブロックダイアグラム。Maxwellと大差ないが……
Titan Xよりも高速。そのわけは?

 GeForce GTX 1080が搭載するPascalアーキテクチャのコアは、ざっくりとした機能の構成そのものは前世代のMaxwellアーキテクチャと大きく変わっていない。それでいて、前世代のGTX 980に比べるとトータルで1.7倍という大きなパフォーマンスの向上が図られている。Titan Xとくらべても25%も速いというから驚きだ。

 理由は複数ある。まず、前世代の28nmから16nm FinFetへと、回路の微細化を行ないつつ3次元トランジスタの採用でリーク電流を減らし、電力効率を上げてより多くのトランジスタを搭載可能としたこと。これにより搭載されるCUDAコア数がGTX 980の2,048個から、GTX 1080では2,560個と増加している。

 さらに、コア内部の経路を最適化したことで動作クロックを大幅に引き上げたことも性能向上の一助となっている。解説を行なったNVIDIAのシニアマーケティングディレクター、ニック・スタム氏によれば、コアクロックは回路の中でも最も耐性の低い部分の性能に制限されてしまうというが、GTX 1080ではその“足を引っ張ってしまう回路”を集中的に改善し、全体の耐性を底上げすることで、ブースト時クロックを1,325MHzから1,733MHzへと大幅に引き上げることに成功した。

 こういった回路上のハードウェア的な改良でGTX 1080は、Titan X(6.6TFlops)を3割近く超える9TFlopsという壮絶なコア性能を獲得している。さらに、実際のゲームパフォーマンスで影響が大きいのがメモリ速度と効率の向上だ。

回路設計の改善によりボトルネックを底上げし、動作クロックを大幅に向上
回路設計、ボードデザイン、ソフトウェア面の改善など、多数の向上が図られている

GDDR5Xを採用:1.4倍

GDDR5Xの採用でデータレートが1.4倍に

 GTX 1080では、グラフィックスメモリにGDDR5の高速タイプであるGDDR5Xを搭載。これによりデータレート(ピンあたりの転送速度)は7Gbpsから10Gbpsへとおよそ1.4倍(正確には1.43倍)の向上を果たしている。メモリインターフェイスの帯域幅は256bitと前世代と同等なので、トータルのメモリ性能も1.4倍の向上ということになる。

メモリ圧縮技術の向上:1.2倍

 さらに、Maxwell世代で搭載されたデータ転送時のメモリ圧縮技術が更に改良されたことで、グラフィックス描画時にボトルネックになりがちなデータ転送量が抑えられ、パフォーマンスの向上に寄与している。レースゲーム「Project Cars」の例では、前世代の技術ではポリゴンの境界部分などが圧縮されずに残っていたケースが多かったところ、Pascalに搭載された圧縮技術では、圧縮されずに転送される部分がほとんど残っていないことがわかる。これによるパフォーマンス向上がおよそ1.2倍だという。

メモリ圧縮技術の向上で、さらに多くのパターンに対応できるようになった。「Project Cars」の例でその効果がわかる

1.4×1.2=1.7

メモリ関連の改良は掛け算で効いてくる。トータルでGTX 980比1.7倍のパフォーマンス

 上記のメモリ高速化の効果は、それぞれが足し算でなく掛け算で効いてくる。つまり、GDDR5Xの採用により基本となる転送レートが1.43倍、それに掛け算で、圧縮技術向上による実データ転送レートが1.2倍という形だ。これを計算すると1.72倍となり、これがGTX 980に対してGTX 1080が持つメモリパフォーマンスということになる。ゲームでは多くの場合、メモリのパフォーマンスがボトルネックとなるため、実パフォーマンスとしてもおよそ1.7倍の差が見られるようになる、というわけだ。

 これに対して廉価版となるGTX 1070では、搭載されるメモリが従来と同じGDDR5となっている。このため、この掛け算のうち“1.4”の部分がないということになる。とはいえ、メモリ圧縮技術の向上については同様に搭載されるため、1.2倍のベネフィットは得られる。それに加えて、GTX 1070はGPUコアの演算性能がGTX Titan X並みの6.5TFlopsに達するとされており、トータルで言えばGTX 980を軽く超えて、Titan Xに迫るもしくはほぼ同等の性能、ということになるのではないだろうか。379ドルという価格を考えれば、これが1番破格の製品といえるようになるかもしれない。

VRではさらなる最適化により大幅なパフォーマンス向上を見込む

GTX 1080は、VRではなんとTitan Xの2倍の性能を発揮するという

 ここまでは従来のゲームで活かされる基本的な性能の向上についてだったが、PascalアーキテクチャのGPUはソフトウェア面の最適化を見越した機能の搭載により、VRでさらに大きなパフォーマンス向上が得られることが大きな特徴だ。ざっくりというと、GTX 1080では、VRゲームにおいてTitan X比で2倍、GTX 980比で2.7倍というすさまじい性能をアピールしている。

 その鍵となるのが、Pascalアーキテクチャで搭載された「Simultaneous Multi-Projection(SMP)」という機能だ。これはMaxwellで搭載されいた、複数のビューポートに同時にレンダリングする機能をさらに強化したもの。複数のビューポートそれぞれが、別の射影変換行列を持つことができる、というのが技術者向けにはわかりやすいだろう。

 もう少し説明しよう。3Dグラフィックスは、3D空間上の座標(ポリゴンの頂点など)をカメラ平面上に投影することで、2Dのスクリーンに描画される。この、3D空間を切り取る2Dの平面のことをビューポートと呼ぶ。Maxwellアーキテクチャでは複数のビューポートを同時に描画できたが、全てのビューポートは同じ平面上にあり、視野角を広げる(ピューポートを拡大する)と、視野の端のほうが引き伸ばされるような形になり、描画効率が落ちることになった。これは従来の高視野角レンダリングの全てに共通する問題だ。

従来の射影方式
「Simultaneous Multi-Projection(SMP)」
SMPにより描画パフォーマンスの向上および歪みの少ない高視野角映像の描画が可能に
SMPを実現する「Plymorth Engine 4.0」

 そこでPascalでは、ビューポートのそれぞれに「別の角度」をもたせられるようにした。これにより、例えば視野の端に当たるビューポートを適切な方向に傾け、不自然な引き伸ばし感のない高視野角映像を効率的にレンダリングすることができる。ビューポートを増やせば曲面ディスプレイや、半球ディスプレイといった装置に最適なレンダリングを1発で行なうことも可能だ。これをハードウェア的に支援するのが、Pascalコアに搭載されたジオメトリエンジン「Plymorth Engine 4.0」となる。

 SMP機能を活用することで大きなパフォーマンス向上が期待されるのが、高視野角映像を両眼にレンダリングしなければならないVR用途であることは簡単に想像できる。NVIDIAが出した例では、従来の手法では無駄に引き伸ばされた状態でレンダリングされてしまう端のほうを、予め4つに分割したビューポートを適切に傾けることで“全く描画しなくてすむ”という手法が紹介された。これにより描画すべきピクセル数が1フレーム当たり4.2MPixelから、2.8Mpixelへと激減するという。

 さらに、複数のビューポートを同時に描画できるという特性は、ステレオ映像を1パスで描画するという方向にも使える。これにより描画面積が変わることはないが、GPUが処理するべきジオメトリ量は半分になる。これにより、よりハイポリゴンの高詳細なメッシュをVR内で表示することが可能になる。

 さらにPascalではMaxwellでの弱点であった並列処理の非効率性を改善しており、VR映像の表示で必要となる非同期タイムワープ(Asynchronous Timewarp)処理を、よりギリギリのタイミングで実行できるなど、VR向けのレンダリングでの向上点が多い。

SMPにより、レンズ歪みを考慮した映像を1発で描画でき、描画面積や頂点処理も節約できる
シングルパスのステレオ描画はハイポリゴンモデルの描画パフォーマンスを向上させる

 このように、Pascal世代のGPUは今後、これまでハイエンド性能が必要とされてきたVRをぐっと身近なものにしてくれる可能性が高い。グラフィックス処理の大幅な効率化によって生まれる余剰のパフォーマンスは、GPGPU処理による高品位なポストプロセスや、PhisXによる物理処理、あるいはレイトレースアルゴリズムをベースにした高品位なオーディオ再現にも活用できる。

 NVIDIAではこれらの機能を活用したVRデモアプリ「NVIDIA VR FUNHOUSE」をSteamでリリースする予定だ。性能要求が非常に高いVR分野で、GeForce GTX 1070/1080が大きな飛躍をもたらしてくれるGPUになることは間違いない。

「NVIDIA VR FUNHOUSE」。NVIDIA謹製のVRデモ。Pascal世代のGPUが持つ機能をフルに引き出しつつ、剛体や流体といった高度な物理シミュレーションをふんだんに使用。VRシステム「HTC Vive」対応で、Steamでリリース予定だ。

(佐藤カフジ)