Game Developers Conference 2009現地レポート

良質なゲームを生み出すプレイテストのアプローチ
Valveの実験心理学博士が明かす、プレイテスト手法のあれこれ

3月23~27日開催(現地時間)

会場:サンフランシスコ Moscone Center

 

 本稿では、Game Developers Conference 2009、通常セッション2日目に行なわれたゲームデザインセッション“Valve's Approach to Playtesting: the Application of Empiricism”の内容をお伝えしたい。

 このセッションでは、Valveの実験心理学博士、Mike Ambinder氏が登壇し、Valveにおけるプレイテストの手法を明らかにした。その内容は、経験的に効果が実証されたものから、非常に実験的なものまで、ありとあらゆる試みがカバーされており、非常に興味深いものだった。



■ Valveのプレイテストはゲーム開発プロセスに不可欠の要素として組み込まれている

Valveので、肩書きは「実験心理学博士(Ph.D)」のMike Ambinder氏

 PCゲームに親しみのある読者ならご存知のゲームデベロッパーであるValveは、かなり控えめに見ても、そのラインナップにひとつも外れがないという偉業を成し続けている。その秘密のひとつとしてよく言われているのは、ゲーム開発において、プレイテストとゲーム改良の繰り返し(イテレーション)プロセスを徹底して行なっているということがある。

 昨年、GDC08で行なわれた「Portal」のゲームデザインセッションでも、このイテレーションプロセスがしつこく繰り返されたということが明かされているが、プレイテストそのものの詳細については不明なままだった。

 本セッションの主題は、まさにその点にある。講演者のMike Ambinder氏は、実験心理学のスペシャリストとして、Valveのゲームデザインプロセスに関わっている人物だ。GDCのような場で講演する人物としては、珍しいタイプに属する。それだけに、このセッションで展開した話題も、他ではなかなか見られない内容となった。

 Ambinder氏は、「Valveのプレイテスト哲学」、「伝統的なプレイテストの手法」、「テクニカルなプレイテストの手法」といった流れでレクチャーを進めていったが、まずはその前提として、Valveのゲームデザインプロセスについて押さえておきたい。Ambinder氏の定義では、以下のようになる。

Valveのテストプレイ哲学

  • ゲームデザインは「仮説」
  • プレイテストは「実験」
  • プレイテストでゲームデザインを評価する

     上記を繰り返すのがValve流ゲームデザインプロセスである。「仮説」を「実験」で検証し続けるという、なんとも単純明快なプロセスだ。またここで、Ambinder氏はプレイテストの目的を「ゲームを面白くするため」に絞っている。バグ出しや、ゲームバランスの調整を目的としたテストは、ここから完全に分離されている。

     というわけで、ここでいうプレイテストは、Valve以外のデベロッパーでは、プロトタイピングを除くと、あまり本格的に取り組んでいないかもしれない種類のものだ。一般的には、開発プロセスにおける組織的なプレイテストと言えばデバッグ目的だけ、というパターンが多いのではないだろうか。

     当然、ゲーム開発にプレイテスト工程を加えることで開発コストに影響がある。やるからにはコストに見合う動機が必要だが、Vavleにおいては、「十分な情報に基づいて決断を下したい」ということが主要な動機となっている。プレイテストによるコスト増大よりも、勘や思い込みが、ゲームデザイン上のリスクを発生させることを恐れているのである。

     ゆえに、Valveにおけるプレイテストはゲームデザインとコンテンツ制作とともにひとつのフィードバックループを成し、開発プロセスに不可欠な形で組み込まれている。語られた内容を総合すると、このフィードバックループは、1週間から2週間程度の短期間で繰り返されることが多いようだ。これがValveのプレイテスト哲学である。

    ゲームデザインのためのプレイテストは、Valveの開発プロセスにがっちりと組み込まれ、ひとつのフィードバックループを構成している。このプロセスはゲームの発売後も継続され、パッチ・追加コンテンツや、後続タイトルの開発に生かされる



    ■ 「伝統的」なプレイテスト手法

     では、具体的なプレイテストの方法について、Ambinder氏が紹介した内容を見てみよう。ひとつめのカテゴリーは、テスターにゲームをプレイしてもらい、そこから何らかの手段で情報を得るという「伝統的」なプレイテストだ。

    テスターを直接観察してのプレイテスト

    ・直接観察テスト

     Valveの典型的なプレイテストは、テスターを集めて、ゲームをプレイしてもらい、その様子を直接観察する方法だ。テストのフォーカスに応じて、経験者、初心者、あるいはその両方といった形でテスターを集め、家でゲームを遊ぶようなリラックスした環境を用意する。スタッフはその様子を後ろから眺めて、ゲームデザインが狙い通り機能しているかを見るわけだ。

     Valveの最新作である「Left 4 Dead」では、当初、チームメイトのピンチに気付かないプレーヤーが多いことをこのテストで見出し、わかりやすくするために、シルエットが壁を透過して表示される改良を施している。

     このテストの利点は、プレーヤーの行動が具体的にわかるため、上記のような改良につながりやすい。ただし欠点として、プレイ内容に観察者の影響がどうしてもでてしまうこと、まれにしか起こらないような極端なケースがテストの評価に偏りをもたらしうることなどが挙げられている。

    テスターに思っていることを常時口に出してもらう

    ・口述テスト

     直接観察テストに似ているが、こちらはテスターが思ったことを直接口に出してもらい、観察者がそれを聞くというテストの手法だ。これもValveではよく行なわれているもののひとつであるようだ。

     メリットとしては、見るだけのテストとは違い、プレーヤーが感じた事をリアルタイムに知ることができるため、プレーヤーが何故そのような行動をとったのかを把握しやすいことが挙げられている。また、見てわからないような感情の動きが理解できることも大きい。

     やはり弱点も指摘されていて、口述することそのものがプレイの邪魔になることや、そもそも口述の内容が不確かになりやすいので、過信は禁物ということのようだ。

    ・Q&A、アンケート

     次に紹介されたのは、テスターにゲームをプレイしてもらった後、体系立った質問をして、それに回答してもらうというテスト方法だ。一般的に広く行なわれていそうな方法であるが、プレーヤーから意味のある回答を引き出すためには、適切な設問、適切な方式が必要である。

     そこでValveでは、Q&Aの手順を「サーベイ(アンケート的な調査)」、「グループ単位のQ&A」、「個別のQ&A」というふうに分類している。対象が狭くなるほど設問と答えは具体的に、細かいものになっていく。

     Ambinder氏はQ&Aについて、ゲームデザイン上の特定の問題に関して明確な回答を得られることや、個別のプレーヤーが持つ感想、プレイ上の問題点が明確になることが利点だとしている。

     しかしながら、質問と回答の両方にバイアスの問題が避けられない点があり、また、そもそも、テスターが自分がゲーム内で取った行動の理由を正しく把握しているとは限らず、回答の正確性は常に限定的である。

    「直接観察」、「口述」、「Q&A」それぞれの利点と欠点について、Ambinder氏によるまとめ



    ■ Valveならではの?技術的なプレイテストのアプローチ

    「伝統的」なプレイテストにおける問題点
     Ambinder氏は伝統的なプレイテストの手法を「直接観察」、「口述」、「Q&A」として3種挙げたのち、これらの手法に共通する問題点も挙げている。

     大きなところとしては、スタジオにテスターを集めてプレイしてもらう以上、基本となるゲームプレイセッションが人工的にならざるをえないところや、状況や個人の影響で、評価・意見にバイアスがかかりうるところ、実証主義的でないところなどが注意点となっている。

     では、それをおぎなう手段があるのだろうか? Ambinder氏は次いで、「技術的なアプローチ」として、Valveで実際に行なっているユニークなプレイテストの例を列挙した。

    ・統計データ収集

    プレーヤーの死亡場所を表す統計データ“Heatmap”
     Valveでは、ゲーマーのプレイデータを横断的に収集し、統計的なデータを用いるというアプローチも積極的に活用している。例えば、マップごとのプレイ時間や、マップ中のどの場所で多くの戦いが発生しているかを示す統計データは、ゲームデザイン上の狙いがうまく機能しているかどうかの客観的な判定にうってつけだ。

     こういった統計に使える情報は何種類もある。ゲームのサーバー・ログを分析して得られるプレーヤーのふるまいに関する情報や、Steamの「実績」解除率により、プレーヤーがどのゲーム要素をどのように、どれくらい遊んでいるのかを推測することができる。また、右図の“Heatmap”は、もともとユーザーが作ったMOD機能だ。使えるものは何でも使うといった姿勢で、Valveではこういった情報を縦横無尽に活用している。

     こういった統計的手法の利点は、プレーヤーの振る舞いの平均値や、全体的な傾向をといった、客観的な指標を簡単に把握できることだ。さらに、個別の観察とは違い、非常に長期にわたって変化を調べることもできる。とはいえ、統計ゆえに極端なデータは隠蔽されてしまうし、細かなニュアンスも失われてしまうので、あくまで補助的な情報として扱うべきであるようだ。

    ・実験的ゲームデザイン

    テスト結果がオンライン上での継続的なアップデートに生かされている

     上記のような方法で客観的なデータ収集が行なえることが条件だが、ゲームデザインを変えて2種類以上の条件でプレイテストを行なうという、かなり時間と手間のかかる方法も試されている。

     2007年末に発売され、現在でも頻繁なアップデートが行なわれている「Team Fortress 2」では、様々なゲームデザイン上の変更について、関連する統計データの変化を予測し、実際に結果を収集することでその後のアップデートの精度を高めること役立てている。

     この方法は、より確度の高い情報に基づいたゲームデザイン上の決定を下せるということが最大のメリットだが、実際の制作(と、場合によっては廃棄)を伴うために、コストがかかる。しかしAmbinder氏は、そのコストは短期的なもので、長期的にはリーズナブルであると考えている。

     ただ、それも「Counter-Strike」や「Team Fortress 2」のようなロングセラーゲームを前提とした考え方といえそうで、どのタイトルでも真似できるというわけにはいかなさそうである。

    ・広域アンケート

    アンケートの例
     これもValveならではの手法ということになるが、ある程度広い範囲でアンケート調査を行ない、ユーザーの反応を統計的にまとめるという試みは、ゲームデザイン上の判断に根拠をもたらす上で非常に役に立っているようだ。

     「伝統的」なプレイテスト手法におけるQ&Aセッションを、さらに標準化して拡大したというのがこれになるが、利点としてはよりバイアスがかかりにくいデータを得られること、人気投票的な情報を得られることが挙げられている。

     ただし、個々のデータが持つニュアンスや文脈が平均値の中に埋没してしまうため、これだけをもとに意味のある判断をしてしまうのは、少々危険なようだ。

    ・生理学的な計測

    機械で計測すれば客観的で正確なデータが取れるはず
     今回Ambinder氏が紹介した手法の中で、「生理学的な計測」という一連のプレイテスト方法は非常に実験的な雰囲気が強かった。基本的なアイディアは、プレーヤーの生物学的なデータを色々なセンサーで取得し、それを分析して何か意味のある情報を見つけるということだ。

     プレイテスターと観察者が対となる構図は「直接観察テスト」や「口述テスト」に近いが、生理学的なデータは演技やごまかしが効くものではないため、テストの客観性が格段に高い。

     では実際に何を計測するかだが、Ambinder氏はこの手の学問の専門家ということもあって、かなり広範囲に試しているようだ。基本的なところでは、心拍数や皮膚の電気伝導性を調べることによってプレーヤーの興奮度、感情を調べる方法や、顔を動画で撮影して、表情の変化をプログラムでデータ化する方法などが、利点と問題点を交えて紹介された。

    アイトラッキングテストの例。プレーヤーの関心がどのように移っていくかが一目瞭然
     その中で、「アイトラッキング」を使ったテストは、狙いと効果がはっきりしていて特に興味深い。このテストでは眼球追跡装置を使い、プレーヤーが画面のどこを見ていたのかを精密に追跡する。それだけでゲーム内の様々な要素とプレーヤーとのインタラクションが、非常に詳細に理解できるのだ。ユーザーインターフェイスを洗練させるためには最良のテスト方法だろう。

    Ambinder氏によると、この手のテストを行なう上での最大の障害は、「とてもお金と時間がかかる」ということだそうだ。上記の「アイトラッキング」テストは、1度の実施で25,000ドルくらいのお金が掛ったとか。ゲームのプレイテスト目的としては、明らかにオーバースペックだ。

     こういった生理学的な計測方法の利点は、プレーヤーの状態をより明確にデータ化できることと、「感情」といった不確かになりがちなものも定量化でき、それに基づいた比較検討や予測を可能にするというところだ。本格的に活用すれば、ゲームデザインの方法論を、学術的にもっと深められるようになるかもしれない。

     その代りに、ゲームのプレイテイスト目的としては、やや大がかりすぎて、コストと効果のバランスが悪い。このことはAmbinder氏自身が指摘しているとおりだ。

     いずれにしても、Valveがプレイテストに投じてきた労力の大きさがひしひしと伝わってくるセッションであった。こういった努力により磨き上げられたゲームが、今後も我々を楽しませてくれるに違いない。

    心拍数皮膚の電気伝導率表情追跡

    脳波表情筋生理学的なアプローチは、コストはかかるが将来的には有望かもしれない





  • (2009年 3月 29日)

    [Reported by 佐藤カフジ ]