佐藤カフジのVR GAMING TODAY!

連載第2回

日本発のVRHMD「FOVE」が業界に革命を起こす!?
アイトラッキング&アダプティブレンダリングがもたらす可能性

【著者:佐藤カフジ】(GDC 2015にて)

 いまVRゲーミング界隈で熱い注目を集める新参プレーヤーがいる。東京大学との共同研究プロジェクトとして開発が進められてきたVRヘッドセット「FOVE」だ。FOVEは去る5月19日よりKickstarterプロジェクトを開始。25万ドルの到達目標をわずか3日で達成するなど、順調すぎるほどの滑り出しを見せている。

 これほどの注目を浴びている理由は、FOVEが“世界初のアイトラッキング機能搭載VRヘッドセット”を謳っているためだ。この機能は、Oculus VR、SteamVR、Project Morpheusなどが牽引するハイエンドコンシューマーVRの世界に、非常に大きなインパクトを与える可能性を持っている。連載第2回はこの「FOVE」について紹介していこう。

ユーザーの注視点を追跡する“第3世代”VRヘッドセット

Fove-inc共同設立者CEOの小島由香氏と、CTOのLochlainn Wilson氏
FOVEのスペックシート

 FOVEは、元SCEJの小島由香氏と、表情認識技術の専門家であるLochlainn Wilson氏が率いるプロジェクトだ。その公式サイトおよびKickstarterプロジェクトページではプロトタイプ版の仕様が公開されており、独自のアイトラッキング技術によりユーザーの注視点を0.2度単位、120fpsで検出できるとされているのが、本製品最大の特徴だ。

 表示系の仕様は、視野角100度、解像度2,560×1,440、フレームレートは60fps(90Hzへの強化を予定)。また、内蔵センサーによるヘッドトラッキングをサポート。ポジショナルトラッキングは今後実装予定とされている。

 基本仕様は先行のOculus Rift製品版やHTC Vive(SteamVR)などとそう変わらないように見えるが、そこに独自実装されたアイトラッキングセンサーが大きな違いをもたらす。

 “目”を入力装置とすることで、開ける可能性は広大だ。バーチャルキャラクターやネットワークでつながった実在人物のアバターとアイコンタクトできるようになれば、全く新しいインタラクションの形が可能になる。例えば、Project Morpheus用の「サマーレッスン」のように、対人コミュニケーションを主軸としたコンテンツではまさに世代が違うほどのインパクトを実現できるはずだ。

目と目で通じ合うVRキャラクター

 また、注視点が正確に検出できることで、従来のVRヘッドセットでは避けられてきたフォーカス表現、つまり注視点の前後にボケを与える被写界深度表現の実装も可能になる。これによりFOVE対応ゲームではよりリアルにプレーヤーの視界を表現できることになるだろう。特にホラー系ゲームにはうってつけだろう。

 また、公式サイト上ではFPS系ゲームでの照準操作にアイトラッキングを用いるアイディアも紹介されている。単純に強いかどうかで言えば、熟練者によるマウス操作の確実性に勝るかどうかは怪しいものの、より直感的な方法で照準できるという事実は大きい。煩雑な操作からプレーヤーを開放し、ゲームとの一体感をさらに促し、新しいゲームデザインの実現につながるようなポテンシャルがある。

アイトラッキングを照準操作に用いたFPSのプレイ

レンズ脇に赤外線カメラを搭載し、眼球運動を捉える
注視点を0.2度の解像度で追跡。キーボードの打鍵もできるという

アイトラッキングの搭載をもって“第3世代VR”を主張

 ここでひとつ釘を刺しておくと、筆者の多少ながら既存のアイトラッキング技術(FOVEとは異なるものだが)を使用した経験からいうと、人間の目というのは案外、自分が思うほどには正確・高速に動かせないものだ。特にじっと凝視するということができない。それは感光細胞が光の変化にのみ反応することから、注視点は常に細かく動いている必要があるためだ。

 例えばFOVEではアイトラッキングを用いたキーボードによる文字入力や、ピアノ演奏の実演などを紹介しているが、これらを充分にこなせるようになるためにはかなりの訓練が必要ではないかと思う。高度な集中力も必要だろう。簡単になんでもできるようになるわけではない。だから、FOVEがそういった活用法にメディカルケアとしての位置づけをもたせていることは完全に正しい。

 本題に戻ろう。FOVEが主張するアイトラッキングのもうひとつの活用法は“Foveated Rendering(中心窩レンダリング)”。すなわち、眼球──網膜の中心部分で結像する高詳細な中心視野と、その周辺をとりかこむ低解像度な周辺視野、それぞれの視覚特性に合わせて映像を作り出すというアイディアだ。これこそが、今後のVRゲーミング業界に最も大きなインパクトを与えることになるかもしれないフィーチャーなのだ。

Foveated Rendering。注視点のみ高解像度で描画する技法だ

ホストマシンの必要スペックを劇的に下げる、VRレンダリング技術の大革命

 FOVEが謳う“Foveated Rendering”の重要性を考えるにあたって、まず人間の目の構造から考えてみよう。

 人間の目というのは、水晶体を通ってきた光子を網膜が受け止めることで世界を捉えている。網膜には部位ごとに大きな解像度の違いがあり、小さな文字を読めるほどに高い解像度を持つのは網膜のど真ん中、中心窩と呼ばれる部分だけだ(参考:Wikipedia)。

 筆者の調べた範囲では、中心0.5度程度の範囲が最高解像度であり、2度ずれると半分、10度ずれると10分の1くらいの解像度になるとする資料が多い。中心から20~30度も外れると、実際に見えている映像は非常な低解像度で、うすボンヤリ見えているにすぎない。そんな状態で、生物学的には鼻側60度、耳側100度の視野角が確保されている。

 つまり、注視していない部分はどうせボンヤリとしか見えないのだから、フル解像度でレンダリングするのは無駄ではないか?といのがFOVEの“Foveated Rendering”の基本的な考え方だ。注視点だけ高詳細に描いて、それ以外の部分は低解像度で描く。これによって、大幅なレンダリングパワーの削減が可能になる。

 実際、どれくらいの削減が可能なのだろうか?それを考えるために、Oculus Rift製品版やHTC Viveで提供される視野角110度のVR映像に、このアイディアを適用した例を作図してみた。

「Assetto Corsa」より。視野角110度でレンダリングした状態

 まず、ベースとなる視野角110度の映像である。内部解像度が公表されているHTC Viveにおいては、この映像は単眼で1,512×1,680という解像度でレンダリングされる。両眼で3024×1680である。90fpsで描画するなら、その負荷は4K@60fpsとほとんどおなじになる。市場価格が15万円以上の最強GPU、GeForce GTX Titan Xでもギリギリという負荷だ。

 次に、注視点を真ん中においた場合、実際にどれくらいの範囲がまともに見えるのかを示したのが下の図だ。ゲームでは高視野角の映像を平面に投影する都合上、周辺部分が間延びし、中央部分は意外と狭い範囲に描画される。この図ではやや保守的に、有効視野を30度近くとっているが、画面全体に比べるとかなり狭いことがわかる。

注視点からの視力低下の模様を明るさで表すと、このようになる。大半の部分はまともに見えていない

 これを実際にGPUで描画する場合、画面を複数のビューポートに分割して描画することになる。円形のビューポートは作れないので、矩形で画面を分割し、周辺部分を8分の1解像度としたのが以下の図だ。解像度の切り替えをざっくり2段階とした場合、最高解像度で描画する視野角30度の範囲は、画面に対して水平16%、垂直28%程度の大きさしかない。面積としては5%にも満たない!

有効視野角を矩形のビューポートで分割したイメージ。その面積は5%弱

 つまり、95%の領域は適当に解像度を下げてもいいのだ。アイトラッキングなしにこれをやると、目をちょっと動かすだけで低解像度領域が見えてしまうが、ユーザーの注視点を検出できるなら、高解像度の領域を随時動かすことでビジュアル上の破綻を防ぐことができる。うまく実装できれば、ユーザーは周辺視野部分が低解像度になっていることにすら気が付かないはずだ。

 この周辺視野部分をどれくらいの解像度で描画するかは、マシンパワーに応じて柔軟に変更できるのもポイントだ。余裕があれば全体をフルで描画してもいい。あまり余裕のないGPUであれば、2分の1、4分の1、8分の1と解像度を減らしていくことで、見た目の上のクオリティにほとんど悪影響を及ぼさずに、劇的に描画負荷を低減できる。

描画された映像は、最終的にレンズ歪みの補正を加えられてHMDのパネルに表示される(Photoshopで作図したため正確ではない)。その他、描画以外の処理も多いため、負荷軽減の効果は多少保守的に見積もる必要がある

 例えば今回の図で示したシナリオでは、周辺視野の解像度変更によるトータルの描画面積は以下のようになる(1辺の解像度を2分の1にすると、面積では4分の1になることに注意)。

・2分の1:28%
・4分の1:11%
・8分の1:6%
・16分の1:4.9%

 高い視野角と同時に高いフレームレート(90Hz以上)の確保が必須となるVRゲーミングにとって、これは革命である。

 もし、実際にテストして8分の1の解像度で充分、となれば、GPUに求められる描画パワーは、フル解像度時のわずか6%。16倍以上もの負荷軽減だ。4分の1でも10倍近い。これなら、GeForce GTX 970が必要なコンテンツを、半分以下の性能しかないエントリークラスのGPUや、ノートPC用GPU、あるいはCPU統合グラフィックスや、スマホやタブレット用のモバイルプロセッサでも動かせるようになるかもしれない。

主要エンジンに幅広く対応するというFOVE。他のVRシステムとの互換性がどうなるかも気になる所だ

 もちろん、複数のビューポートに分けてレンダリングするというのは、GPUからの支援がなければなかなか効率的に実装することが難しいほか、コンテンツやマシン構成によってはCPUがボトルネックになるケースもあるはず。だから、現実の実装においては、高速化の幅はもう少し保守的に見積もる必要があるだろう。それでも2倍、4倍の効率化は余裕で実現できるはずだ。

 このような機能をもたらすFOVEは、VRゲーミングの普及に向けて最大の障害となっているマシンスペック問題を一挙に解決するだけの可能性を秘めている。やりようによっては、4K、8Kといった超高解像度パネルにも余裕で対応可能だし、非力なモバイルプラットフォームでの本格VRゲーミング時代を5年は早く実現できる。映像の帯域幅を抑制できるため、クラウドレンダリングVRへの道も開くだろう。万人のためのプレミアムVRを実現する、まさに革命だ。

 FOVEは、開発キットの出荷を2016年4月に予定している。順調に進めば、2016年末までに製品化も果たされるだろうか。あるいは、それ以前にOculus VR、Valve、SCEといった業界の巨人たちに買収される、というシナリオもありうるかもしれない。どちらにしてもVRゲーミングファンとしては、この技術がどのVRシステムでも当たり前に活用されるような未来が理想的である。

 可能性溢れるFOVE。今後も引き続き追いかけていきたい。