佐藤カフジのVR GAMING TODAY!
VRとゲーム技術が導くシンギュラリティへの道
「VRCカンファレンス2015」から考える、実写VRの課題と解法
(2015/11/10 13:11)
11月7日に開催されたVRコンソーシアム初の年次カンファレンス「VRCカンファレンス2015」は、VRゲーミングとノンゲームVRの双方について、最新事情を共有する貴重な機会となった。
ゲーム産業界からの登壇者によるスピーチについては、既に弊誌レポート記事でお伝えしている(産・学のVR先駆者たちが集結した「VRCカンファレンス2015」レポート)。そこで当連載では、いつもなら弊誌上であまり取り上げることのないノンゲームVRに関する情報を含め、VR界全体の“今”を俯瞰してみたい。また、実写系VRコンテンツにまつわる諸問題を、ゲーム関連技術が解決するという興味深いビジョンも浮かび上がってきたので、ご報告しよう。
シンギュラリティアンが集まる「VRCカンファレンス」、主流は実写系VR
当カンファレンスを実施したVRコンソーシアムは、ダンボール製スマホVRキット「ハコスコ」の開発で知られる藤井直敬氏が中心となって組織された、生まれたばかりの団体だ。その団体による初の年次カンファレンスには学者、研究者、実業家、コンテンツクリエイターといった幅広い業界からの人物が集まった。この集団に特徴的だと言えるのは、それぞれがVRに深い関心を持つだけでなく、ほとんど全員がシンギュラリティアンである、というところだろう。
シンギュラリティアンというのは、そう遠くない将来、技術発達のスピードが人類の理解を超えて加速していく“技術的特異点:Technological Singularity”が到来するという将来ビジョンを抱いている人たちのこと。ここでいうシンギュラリティはアメリカの著名な発明家・ビジョナリストのレイ・カーツワイル氏が提唱する概念で、“収穫加速の法則”という言葉を調べてみると、その詳細を知ることができる。言い出しっぺのひとりであるレイ・カーツワイル氏は、最も熱心なシンギュラリティアンとして、技術的特異点を実現するため、Googleにて人工知能の研究開発を先導している。
ちょっとSFチックな話になってしまったが、現実をよくよく見てみれば、ちょっと前までSFの中にしかなかったものが多数、実現している。ディープラーニングに基づく実用的AIや、いままさに離陸しつつあるVR技術はその最たるものだ。
この点で、VRCカンファレンス2015の基調講演を行なった藤井直敬氏の言葉がとても印象深い。医学博士として脳科学を専門とする藤井氏は、「新しいテクノロジーが社会をどう変えるかに凄く興味がある」としつつ、こう語っている。
「3年くらい前までは、2年後も3年後も大して変わらないし、なんか悪いことばかり起きてるし、いつ死んでもいいと思ってました。でも、Oculusが出たあと、死にたくなくなったんですよ。1年後を見たいし、2年後も見たい。社会も人も進化していく、特に認知レベルで世界の感じ方が変わるんじゃないかと。そういう意味で僕らは劇的な進化のタイミングに居るんじゃないかなと」(藤井氏)
このように、テクノロジーと社会の進化を追いかける人種にとって、Oculus Riftを皮切りにプレミアムなVR技術がコンシューマーレベルに降りてきたというのは極めて大きな事件なのだ。かくいう筆者も2011年~2012年頃は先の見えない暗闇をさまよっていた印象が強いが、2013年にはじめてOculus Rift DK1をかぶってからというもの、未来が輝いて見えるようになったと感じている。
藤井氏と同様に、VRCカンファレンスに登壇した多くの人物も、同様のマインドの持ち主だった。他人への“ジャックイン”技術を研究するソニーコンピュータサイエンス研究所の笠原俊一氏、VR専門スタジオを立ち上げたグリーの荒木英士氏などに至っては、明確に、テクノロジーが人類そのものを進化させるという“ポスト・ヒューマン”のビジョンををかなり明確に、ストレートに語っていた。
VRCカンファレンスはそういった人々が幅広い業界から集まるイベントだっただけに、VRゲーミングの議論は全体の一部にすぎなかった。より主流らしく見えたのは、広角カメラを使ったパノラマビデオによる実写系VRについての議論だ。
難問山積の実写系VR。クラウドゲーミングの技術が解決策に?
実写系VR体験は、複数の広角カメラで現実の風景を撮像し、複数方向の映像をコンポジットして全天球パノラマ動画を作り、それをHMDを通して見ることで実現する。コンピューターグラフィックスによるVRとは違って、撮影の仕組みさえ整えば非常に簡単にコンテンツが作れるというのが強みだ。やがては全天球パノラマ撮影機能がスマホ等にも標準搭載され、“写メ”レベルに手軽なものになっていくこともありえるだろう。
しかし弱点もある。撮影の仕組み上、両眼立体視の実現が難しいことと、充分な高解像度を実現するためには膨大なデータ量と通信帯域が必要となることだ。
特にデータ量の問題は深刻だ。全天球動画は4K解像度では全く足りず、8KでもOculus Rift DK2でようやくドット・バイ・ドットに近づく程度。Oculus Rift製品版で鮮明な映像を見せたいなら、さらに一回り上の解像度が必要になるだろう。しかも、動画のフレームレートは最低でも60fpsはないと現実感の薄い映像になってしまう(VRというより、大画面で動画を見ているだけの印象になる)。立体視も実現するなら、さらに倍の解像度と帯域が必要だ。
現在のところ、そこまでの高解像度・高fpsで単体撮影できる機材は無いに等しく、大抵は大掛かりな仕掛けが必要になる。例えばユビキタスエンターテインメントではワンストップで4K~8Kパノラマ動画を製作できるシステムを開発しているが、現在のところ、撮影に使われるハードはGoProを6台連結した大掛かりなものだ。
確かに、このように大掛かりな撮影システムが必要であっても、プロの現場なら手軽に導入できるレベルのものにはなった。これは大きな進歩だ。しかし、それよりも深刻なのが膨大なデータ量ゆえの帯域の問題である。8K解像度レベルの動画を再生するには、いまのところ、強力なCPUを搭載したPCのローカルディスクやギガビットLAN内に映像コンテンツが配置されている必要がある。スマホで再生するには性能が不足しているし、インターネット経由でエンドユーザーに配信できるようなソリューションはいまのところない。
この問題に真正面から取り組んでいる人物のひとりは、ドワンゴの岩城進之介氏だ。ドワンゴにてVR案件の開発を主導している岩城氏は、2014年11月に開催された「小林幸子VRライブ」のシステム開発を振り返り、画質面の課題と解決策について語っている。
「小林幸子VRライブ」で採られた方法は、全天球映像を複数タイルに分割し、それぞれのタイルについて高画質・低画質ストリームを用意して、ユーザーが見ている方向に応じてストリームを切り替えて配信するという仕組みだ。さらに、各ストリームのうち演者が含まれる部分に高いビットレートを割り当てるというエンコード方式を取ることで、さらに帯域・画質のトレードオフを改善しているという。
昨年、筆者はこのVRライブを実際に視聴したが、ストリームの切り替えの反応が非常に鈍く(数秒以上かかる)、また、高解像度部分であってもそれほど高詳細ではなく、演者の姿は終始ボンヤリとしか見えず、とても実用には程遠いと思った記憶がある。そもそも論としてソース解像度が低いことと、ストリーミング分割の方式が大雑把すぎるところに理由があるように感じられた。
これを解決するのは容易ではないが、講演を聞きながら思いついたことがある。日本発のアイトラッキング搭載VRHMD「FOVE」では、ゲーム画面のレンダリングパワーを大幅に効率化するFoveated Renderingという技術(関連記事)を開発しているが、同様の技術で、実写系VRの配信に求められる帯域も劇的に削減できるのではないか、ということだ。
視野角が非常に広いVRHMDでは、ユーザーにとって本質的に重要なのは注視点とその周囲のわずかな範囲だけだ。直視していない部分は解像度・ビットレートがかなり低くてもかまわない。HMDで側にFOVEのような低遅延で正確なアイトラッキング技術があればこれを高精度で実現できるが、アイトラッキングがなくても、視野中央にビットレートを優先する方式で妥協することはできる。それでもかなりの帯域削減効果が見込めるはずだ。
このときに問題となるのが、動画のエンコードをどうするかだ。ニコニコ動画をはじめ、多くの動画配信サービスは、エンコード済みのストリームを全ユーザーに配信する仕組みをとっているが、この方式では、VRHMDをかぶったユーザーそれぞれに適切な解像度配分を持つ動画を配信することはできない。
それができるシステムは?ズバリ、クラウドゲーミングのシステムだ。例えば、シンラ・テクノロジーによるShinra System、NVIDIAによるGRID Game Streaming Serviceのように、クラウドゲーミングサービスではユーザーそれぞれに別の映像を送出する必要があるため、端的にいうと「ユーザーひとりにエンコーダーが1つ」割り当てられている。実写映像の配信にも、この仕組みを使ってはどうだろうか?
つまり、ゲームコントローラーによる入力のかわりに、ユーザーがVRHMDを通して見ている視線方向を入力情報とし、サーバー側ではゲーム画面をレンダリングするかわりに、視線方向に対応した映像をパノラマ動画のソースから切り取り、逐次エンコードして対象ユーザーに送出するという仕組みだ。
この方法なら、8K以上のパノラマ映像も、現実的なネットワーク帯域でユーザーに配信できるはず。しかも、ひとりぶんの映像をエンコードできるだけの、2k~4Kレベルのハードウェアエンコーダーチップは、スマホ用GPUのオマケにつくほど安価なものだ。はじめからVR動画に最適化したシステムを作るつもりで挑めば、かなり良いものができそうな気配がする。
このように、VR時代にはゲーム、ノンゲームの双方の技術が互いに有効活用されるケースが数多くありそうである。その中でひとついえるのは、カッティング・エッジなゲーム関連技術が全業界の最先端を走っているケースが多いということだ(例えば、コンテンツ製作プラットフォームとしてのゲームエンジン技術はその最たるものだろう)。テクノロジー好きなゲーマーとして、追いかけるべき楽しみがまた1つ増えたような面白さを感じている。