【Watch記事検索】
最新ニュース
【11月30日】
【11月29日】
【11月28日】
【11月27日】
【11月26日】

Game Developers Conference 2007現地レポート

“任天堂の忍者”島田健嗣氏が語る
「脳トレ」の音声・手書き認識システム開発の裏側

3月5日~9日(現地時間) 開催

会場:Moscone Center

「脳トレ」は現在、日本の2作のほかに、北米版、欧州版、韓国版が発売されている
 宮本茂氏の基調講演をはじめ、任天堂株式会社からのセッションが連日行なわれている今回のGDC。最終日となった3月9日(現地時間)は、島田健嗣氏によるセッション“(Rethinking the Development Timeline”(開発タイムラインの再考)が開かれた。

 日本では「脳トレ」と呼ばれ、空前のニンテンドーDSブームを巻き起こした「脳を鍛える大人のDSトレーニング(米国タイトル: Brain Age)」シリーズだが、その開発は、約10人のチームで3カ月の開発期間という、昨今のゲームとしては極めて小規模・短期間のものだった。

 この成功の裏には、任天堂内にある、開発環境を専門的に制作するチームがいた。島田氏はその中で、グラフィックスおよびサウンド関連のグループと、ミドルウェアを制作するグループのリーダーを務めている。ほかに、SDKやワイヤレス環境を制作するチームもあり、社内のみならず社外にも開発ツールやミドルウェアを提供している。

 今回取り上げられた話題は、島田氏率いるミドルウェア制作グループが手がけた、音声認識ライブラリと手書き文字認識ライブラリの制作について。「脳トレ」の心臓部ともいえる音声認識と手書き文字認識を、早期に、かつ高い精度で作り上げた手法が明らかにされた。

 セッションの始めに島田氏が紹介された際、「任天堂の忍者」と呼ばれていた。これには島田氏も苦笑いを浮かべていたが、任天堂のゲームを影から支える日本人ということで、なかなか的確な表現だ。



■ リスク覚悟で、要望が出る前にライブラリを用意

タッチスクリーンとマイクを搭載したDS。いずれ音声認識と手書き認識が必要になるのは自明だが、その初動の早さがポイント
 音声認識、手書き認識のライブラリ作成は、「脳トレ」の開発が始まる以前から既にスタートしていた。島田氏は、「タッチスクリーンやマイクが搭載されているDS本体を見れば、容易に想像できる」と、先を見越して開発を始めたのだという。

 これ自体は当たり前の話と言えなくもないのだが、開発をスタートした時期は、DSのローンチに向けて準備を進めている真っ最中で、島田氏のグループもローンチタイトルのサポートのため、かなり忙しい状況だったという。ローンチタイトルには音声認識や手書き認識を必要とするものはなく、この時点でそういった要望はなかった。状況的には、かなり思い切った選択といえる。

 開発は自社だけで行なうのではなく、既に音声認識や手書き認識で実績のある社外の企業と協力することを決めた。各企業のソフトの調査を進め、採用候補を数社に絞り込んだ。

 その頃、島田氏のもとに1本の電話が入る。あるプログラマからの「手書き文字エンジンはあるか?」という問い合わせだった。彼は岩田社長のもとで開かれていた「DSユーザーをいかに広げるか」についての検討会に参加していたメンバーで、そこで当時ベストセラーとなっていた川島隆太教授の著書「脳を鍛える大人の計算ドリル」をゲーム化したいという企画を立てていた。

 既に準備を進めていた島田氏はそれを伝えると、今度は「DSを縦持ちにして使えるか?」と尋ねられた。縦で持つ意味がわからなかった島田氏が彼に詳しい話を聞くため足を運ぶと、そこには既にDSを縦に持って計算するプログラムが動いていた。これを見て瞬時に納得した島田氏は、縦持ちに対応させた試作ライブラリを彼に送った。概ね良好という返答があったところで、ライブラリ制作が本格的にスタートすることになる。

 最終的に製品に使うライブラリは、当然ながら音声認識、手書き認識で1つずつ。絞り込んでいた数社のものは、いずれも認識力は高かったので、動作速度、メモリ使用量、対応言語、コストの4つから総合的に判断し、採用する企業を決定した。

 この時点で、「脳トレ」の発売時期が3カ月後に決定していた。ここから、DS向け、「脳トレ」向けのチューニングが開始される。



■ 曖昧な判断で認識力を向上させた音声認識

島田氏のいうところの「黄色問題」。70歳の人にまでテストするのは稀なことだが、そこまでやったことでこの問題が発覚した
 音声認識のチューニングで最初の壁となったのは、基本的に大人の声に合わせてチューニングされているという点だった。「脳トレ」は子供向けのソフトというわけではないが、子供の声の認識率が低いのは問題になる。そこで任天堂の社内で、子供のボランティアを20人集めてサンプルを採った。騒音下でのサンプルも必要ということで、冬の寒い最中に、任天堂社屋の前で行なったという。

 ある程度形になった後のモニタリングテストは、子供から70歳代の高齢者まで、幅広い層を対象に行なわれた。ここでも新たな問題として、高齢者の「きいろ(kiiro)」という発言だけ、認識率が悪いという結果が出た。分析の結果、高齢者は活舌が悪くなるため、「きいろ」という発言が、「いいろ(iiro)」、「ちいろ(tiiro)」などに誤認識されやすいのだという。

 そこで島田氏らのグループは、「きいろ」の副辞書として、「いいろ」、「ちいろ」を登録した。つまり、「きいろ」という答えの際に、「いいろ」や「ちいろ」が音声入力されても、それを正解にしてしまうのである。

 また音声認識は、短い単語ほど認識しにくいという特性がある。「脳トレ」には、文字の色を声で答えるという問題があり、「赤」、「青」、「黄色」、「緑(高齢者は緑の色を判別しにくくなるため、製品版では黒に変更された)」の4つから選ばせる。チューニングによって高い認識率にはなったが、100%にするのは不可能だったという。

 この問題は、ゲーム側の工夫で対応された。音声認識エンジンは、入力に対して1つの答えを返すのではなく、1番近かったのは「赤」、2番目は「青」、3番目は「緑」……といった具合に確からしい具合に並べて複数の答えを返す。この場合、問題の正答が「赤」だった場合はもちろん正解になるが、「青」だった場合も正解にしてしまう。あえて曖昧なチューニングを行なうことで、精度を向上させるわけだ。ただし、曖昧さの幅が広すぎてもいけないので、そこは許容できる範囲に調整する必要があるとしている。

 また騒音下では誤認識が増えてしまうが、これについてはゲームの開始時に「騒音は多いか」とプレーヤーに質問し、多いと答えた場合は音声入力を使用しない問題を出す、といったゲーム側での対応がなされている。

 ほかにも、音声入力の終了を判断するための無音時間の調整など、さまざまな側面からチューニングしているという。

 高い認識率を実現するため、あえて曖昧さを取り入れるというのは、何とも皮肉なことではある。音声をパーフェクトに読み込んで文章化するのではなく、限定された中での解答として使うことを目的にしているからこそ実現できた、ゲームならではの手法といえるだろう。



■ 過酷な入力に耐える手書き認識

数字の「4」の手書きサンプル。言われなければわからないレベルのものもあるが、全て正しく「4」と認識できるという
 続いて、タッチスクリーンに書かれた文字を認識する手書き認識について語られた。島田氏らが最初に行なったのは、多くの人が書いた文字のサンプルをデータベース化することだったという。これにより、エンジンが変更された場合にも、チェックが最小限の時間で済み、どの程度の認識率の改善があったかがすぐに判断できる。

 実際の「脳トレ」での手書き入力については、連続で計算する問題など、スピードが求められる。プレーヤーは急いで書くので、必然的に文字はかなり乱れる。島田氏は、「通常、手書き入力をする際には、ゆっくり丁寧に書くもの。あるいはそう気をつける人が使う」と説明し、「脳トレ」での手書き入力が非常に異質で、エンジンに対して過酷であることを示した。

 例として、数字やアルファベットの手書きのサンプルがいくつか表示された。中には目で見ても読み取れないものもあったが、島田氏は「これらは全て正しく認識できたものです」と紹介。エンジンの性能の高さをアピールした。

 手書き認識をゲームで使う際に問題となるのは、入力終了のタイミングだという。通常、他のデバイスで手書き入力する際は、キーを押すなどしてユーザーが手書きの終了を明示的に示したり、一定時間の入力がなかった場合に終了と扱うといった仕組みになっている。しかしこれは「脳トレ」においては、前者は余計な入力が必要になり、後者は待ち時間が発生する。いずれもゲームのテンポが悪くなってしまう。

 そこで入力終了の判定は、一筆の入力が終わった際、すなわちタッチスクリーンからタッチペンが離れた瞬間に行なう。この時点で正解であれば次の問題に移り、誤答であれば次の入力を待つ。この繰り返しにより、時間的ストレスのない手書き入力を実現している。

 また、日本で2作目となる「もっと脳を鍛える大人のDSトレーニング」では、新たに漢字入力を採用した。この時は500人の社員にDSを持たせ、さまざまな漢字を書かせてサンプルを集めたという。

最初に手書き文字のサンプルを集めて、データベース化。エンジンの変更や改良のテストが格段に楽になる 任天堂社員500人を使って行なわれた、漢字の手書きサンプル収集。「読めない」、「生まれて初めて書いた」という文字も多数あったとか



■ 並行して行なわれた多言語対応

上の三角がソフトの発売日で、青のバーが音声認識、黄色が手書き認識のもの。複数のタスクが平行して動いており、このほかにDSのローンチサポートなど他の業務もかぶっていた
 北米では「Brain Age」、欧州では「Brain Training」として発売されている「脳トレ」だが、これらの発売が決定する前からライブラリの多言語対応が進められていた。

 5言語対応が必要となった欧州では、欧州任天堂で開発が行なわれた。ただ開発に先立って、島田氏らが欧州に出張し、日本語版で苦労した点を伝えたり、データ取りの工程に問題がないかを確認した。その後はビデオ会議などで済ませたというが、「最初に意思疎通をしたおかげで、後はスムーズに進んだ」という。

 ただ1点苦労したのが、オランダ語対応。欧州言語のうち、DSのメニュー画面で選択できる英語、ドイツ語、フランス語、スペイン語、イタリア語は対応していたが、オランダ語は元々対応していなかった。しかし、欧州任天堂から「オランダ語に対応したい」という再三の要望があり、検討を始めることになった。

 この時点からオランダ語のデータを追加するのは、時間的に不可能だった。そこで、オランダ語に比較的近いドイツ語のデータを使い、その副辞書としてオランダ語を再現できないか? という方向で進められた。「オランダ語である発音をする言葉を、ドイツ語で表現するとどう書くか」という可能性をいくつも考えるなどして実験したところ、理論的に可能であると確認。欧州任天堂にいたドイツ語を話せるオランダ人を中心に副辞書が作成され、実際に十分なクオリティを達成できたという。

 これらの多言語対応は、複数のラインが平行して進められ、日本の任天堂と米国任天堂、欧州任天堂、2社のライブラリ開発メーカーが協力するプロジェクトとなった。この開発では時差をうまく利用することで、全てのプロジェクトを平行して、効率よく進められたという。それでもスケジュールはかなり重複しており、島田氏も「当時は必要だからやらないと、と思っていただけだが、今見ると凄いスケジュールで動いていた」と当時を振り返っていた。



 島田氏は、「いかにして短期間でこれだけのものを制作できたか」というまとめとして、「先を読み、仕込みをしておくこと」、「プロジェクトの意識を共有すること」、「国際的な視野を持つこと」の3つが重要であると説いた。

 島田氏らのグループでは、HAL研究所と共同で制作しているWii用開発ツール「NintendoWare for Revolution」のバージョンアップなどを行なうかたわら、さらに先を見越し、Wiiでの音声合成の実験などを試しているという。

 最後に島田氏は、「毎日、我々の準備した技術を組み込んだゲームがリリースされることは、我々にとっても大変エキサイティングなこと。今後も皆さんのお役に立てる技術を準備し、提供していきますので、さらに新しい驚きのあるゲーム作りをしていってください」と来場したクリエイターにメッセージを送った。

 島田氏のような裏方の仕事は、ゲームを作るクリエイターとは違い、ユーザーと直接繋がる部分がない。また意図的かどうかはともかく、「脳トレ」で約10人と言われている開発スタッフにも、島田氏らは含まれていない。しかしながら、「脳トレ」の面白さを正しく表現するための技術は、紛れもなく島田氏らの努力とアイデアで生まれたものだ。一般ユーザーにも、ゲームの裏には“忍者”のごとく、地味ながら活躍している人たちがいることを知ってもらえれば幸いに思う。

スライドで紹介された、任天堂とHAL研究所の“忍者”達。地味と言っては失礼かもしれないが、彼らの仕事の上に数々の名作ゲームが成り立っている


□Game Developers Conferenceのホームページ
http://japan.gdconf.com/
□任天堂のホームページ
http://www.nintendo.co.jp/
□関連情報
Game Developers Conference 2007 記事リンク集
http://game.watch.impress.co.jp/docs/20070308/gdclink.htm

(2007年3月11日)

[Reported by 石田賀津男]



Q&A、ゲームの攻略などに関する質問はお受けしておりません
また、弊誌に掲載された写真、文章の転載、使用に関しましては一切お断わりいたします

ウォッチ編集部内GAME Watch担当game-watch@impress.co.jp

Copyright (c) 2007 Impress Watch Corporation, an Impress Group company. All rights reserved.