『プロスピ』最新作に込められた「立体音響×球場」と「音声合成×実況」の徹底ぶり 開発者たちが語る“音”の裏側

 野球ゲームの人気作品「プロスピ」シリーズの最新作である『プロ野球スピリッツ2024-2025』が、9月19日に発売される。

 同作はシリーズ発売20周年記念の節目となるタイトルで、PlayStation®5&Steam®向けにリリースされるのだが、発売前からさらに向上したグラフィックや選手のモーションのリアルさが話題になっている。

 しかし、同作の注目ポイントはそれだけではない。立体音響技術をはじめ、「実在スタジアムのインパルスレスポンスを収録」「実況への音声合成の導入」など、音響面での大幅なアップデートが見られており、さらにスタジアムの臨場感が際立っている。

 今回はそんな同作の音響面について、株式会社コナミデジタルエンタテインメントの野球タイトルでサウンド開発を担っている柏崎歩氏と原田和茂氏、そして音声合成の技術周りを対応した株式会社テクノスピーチの代表・大浦圭一郎氏の三人にインタビュー。ユーザーの体験をさらに高めるために徹底して作られた“音”について、じっくり話を聞いた。(編集部)

「TV中継的な野球の表現」と「本当の球場に近い野球の表現」をゲーム内で両立させるための工夫

ーー今回はスタジアムの空間をより体感できるように「3Dオーディオ」と「コンボリューションリバーブ」という2つの技術を使ったそうですね。あらためてこの2つについてご説明いただいてもよろしいでしょうか。

柏崎:「3Dオーディオ」は文字通り、3次元で音の方向や距離を表現する手法です。昨今、多くのスピーカーを使わなくても、ヘッドホンやテレビのスピーカーなどから再生して体感できるシステムが多数開発されていて、ハイエンドゲームや映画へ標準的に導入されているものです。ゲームへの導入に関しては、ひと世代前だと5.1chや7.1chなどの形式を使っていたのですが、これはあくまで平面としてサラウンドを体感するというものでした。現世代のゲームはそこに高さが加わった音が鳴っています。今回の「プロスピ2024-2025」はグラフィックを大きく進化させたので、そこに相応しいサウンドを作りたいということで、「3Dオーディオ」にはかなり力をいれています。

 具体的には「見た目とサウンドの印象」が一致するように心がけました。そこで「コンボリューションリバーブ」が関わってくるのですが、これは実在空間でキャプチャーした「インパルスレスポンス」というデータを使って、あたかもその空間にいるような響きをシミュレートするリバーブレーターのことです。「インパルスレスポンス」のデータはメモリをかなり消費するため、ひと世代前のハードでは使う事が難しかったのですが、今回はその制約をクリアできたので、本格的に実装することにしました。

ーーいずれも制約がなくなったことで実装に踏み込めた、ということですね。対応ハードをPlayStation®5とSteam®向けに絞ったのも、そのような表現を最大限に活かすためなのでしょうか。

柏崎:その通りです。PlayStation®4も対応ハードに入れていたら、そのような仕様にはなっていなかったと思います。

ーー立体音響で音を表現するとなったとき、RPGなどのフィクションは目の前に広がっている空間より多少広かったり狭かったりしてもそこまで違和感がないと思うのですが、野球場というリアルな空間は、実際に行ったことのある方も多いぶん、調整が難しかったのではないでしょうか。

柏崎:RPGやアクションゲーム、FPSはリスナーに対して大きく動く物体があるがゆえに、立体の空間を表現しやすいです。ただ、野球場の場合は音を出すオブジェクトのほとんどが固定されていて数も少ないので、動きによる音の可変を表現するのが難しく、特に縦方向・高さを感じる音の表現についてはかなり苦労しました。スタンドからの歓声は、360度を取り囲まれているような感覚を味わっていただくために「Ambisonics (アンビソニックス) 」というフォーマットを使っているのですが、立体感を出すために、あえて音の定位を2階の客席くらいの高さに設定しています。

ーースタジアムの“鳴り”を演出するために、ほかに工夫したところはありますか?

原田:コンボリューションリバーブを含めての話になりますが、リアルな打球音はスタジアム空間を体感する上で欠かせません。実際に録音した野球選手の打球音を素材として使っていますが、コンボリューションリバーブを適用した時の残響の調整は、リアルを少し誇張したバランスで試行錯誤を繰り返しました。

ーーコンボリューションリバーブを作るための測定にあたって、苦労した点は?

柏崎:インパルスレスポンスを録る際は、サイン波のスイープ音(TSP信号)を出してそれを録音するんですが、そのために球場の中でスピーカーを持ち運んで、いろんな場所でスイープ音を鳴らさなければいけません。しかも、球場の歓声に相当する100db近い音圧を出す必要があったので、大きなスピーカーを6台用意して、かなり必死の思いで録音しました。

 それに、スピーカーをどこに置いてマイクをどこに置いたら理想的な響きを得られるかがわからない状態でスタートしたのと、野球場なので芝の上で台車が使えないこともあり、大型のスピーカーをハンドキャリーで持って行って……そういう物理的な苦労も多かったです(笑)。

ーー大変ですね……。

原田:先ほどフィクションとリアルの話がありましたが、野球の表現にも同じような話があります。「TV中継的な野球の表現」と「本当の球場に近い野球の表現」という。

ーーたしかに! 体験や見え方・聴こえ方として全然違いますもんね。

原田:そうなんです。ゲームとしてフォトリアルにはなっているものの、体験としてリアルな球場の再現をするのが必ずしも正解とは言えないと思います。ゲームのプレイ画面はTV中継に近いですから。そのなかで臨場感をどう表現するかという部分において、サウンドチームの中で議論を重ねました。

 例えばゲーム的な表現としてカメラが次々にスイッチングしていく場面で、その度に応援歌が右から聞こえたり左から聞こえたりすると違和感が出てしまうので、特定の状況では定位を固定したり、変化が緩やかになるように調整したりしています。

ゲーム内の「京セラドーム大阪」。見た目もかなりフォトリアルに作られているが、音響も含めての“リアル”なのだ

原田:定位に関してはTV中継的な表現がベースになっていますが、響きや音のダイナミック感については、キャッチャーぐらいのところにカメラを置いているくらいの見え方を想定して、そこから見たまま聴こえたままのサウンドを再現するように調整を進めました。

ーー今回の立体音響、合成音声はそれぞれ初めての試みかと思いますが、今後に向けて「こういったことも実現したい」といったビジョンなどはありますでしょうか?

柏崎:野球の表現はもっとリアルにできると思っています。たとえば音の配置をさらに緻密にする事で立体感を向上できると思います。一例として、応援団の応援歌はスタンドにひとかたまりの音源として配置していますが、太鼓やトランペットの演奏者一人ひとりからちゃんと音が聴こえると、球場全体のうねりがさらに表現できると考えています。

ゲーム内の「ZOZOマリンスタジアム」。屋外球場でも測定をおこなったため“外っぽさ”が表現されている

「助詞の付いた固有名詞を極力使わない事で回避していた」実況が音声合成でよりリアルに

ーーここからは音声合成の仕組みについても聞いていきたいのですが、まずはテクノスピーチさんと組むに至った理由について教えてください。

柏崎:実況に音声合成を使いたいというのは、かなり前から考えていたことなんです。理由としては、ユーザーが任意で付けた名前を実況が喋ってくれるという仕組みにそもそもニーズがあって。日本人に多い名前やよくある名前みたいなものを数万個くらいは用意しているのですが、それでも無い名前というのはありますし、とはいえさらに種類を増やそうと思うと収録が大変です。

 あと、「〇〇が〜」や「〇〇の〜」といった固有名詞+助詞で実況する場合、選手名×助詞の数だけ録音する必要があります。これまでは「〇〇、今のボールは仕留めておきたかったところ」と、助詞の付いた固有名詞を極力使わない事で回避していました。また、様々な記録の数字についても同様で、収録数や組み合わせたときにセリフのつながりが不自然になる事を考慮して、限定的な使用に留めていました。ただ、野球って記録のスポーツでもあるじゃないですか。戦略に直結する部分もあり、なるべく制約が少ない状態でそういったデータを喋らせたかったので、収録音声+音声合成のハイブリッドを進めようと思ったんです。

名前の呼び方を設定できる画面。筆者の名前なども読み上げてもらったが、本当に違和感がなくてどんな名前でも読んでもらえるのが驚きだ。

ーーそこからタッグを組む会社を探すにあたって、求めていた条件とは?

原田:このプロジェクトを始めた当初の話ではあるのですが、音声合成で作った音声って、あまり音質が良くなかったんです。「48kHz/24bit」を圧縮した収録音声と並べた時に音質差があり、併用するにはクオリティが足りなかったので、そこを解決してくれる企業を探していました。あとは、ゲーム中に起こった出来事に対してテキストを生成してそのまま鳴らすためには処理速度などを含めた動作条件を満たしている必要があり、さまざまなベンダーさんとお話をするなかで、テクノスピーチさんの技術が圧倒的にクオリティが高かったので、最終的にお願いする流れになりました。

ーーテクノスピーチの大浦さんはこれまでリアルサウンドでもVoisonaの開発者としてご登場いただいています。今回は音楽ではなくゲームの中での音声ということで、実際にKONAMIさんから依頼があったときに、どういう印象を抱きましたか。

大浦圭一郎(以下、大浦):音声の品質や肉声感、喋り方などのクオリティや、プログラムの実行速度など、非常に高い品質が求められるタイトルの合成音声を依頼いただいて、非常に光栄に感じました。

ーー通常の音声合成プロジェクトと大きく違った部分などはありましたか?

大浦:一番大きかったのは「新規収録をしない」ということですね。声優さんの音声合成ライブラリを作る場合は「こういう文章を読んでください」とお願いして、さまざまな声を例えば2時間ほど数日間の収録で録り切ってライブラリを作るんです。短期間のうちに収録しないとスタジオや喉のコンディション、喋り方が変わってしまいラーニングに悪影響を及ぼすので、多くの場合は新規収録です。

 ただ、今回のケースは過去の収録データがかなりの数あったので、上記の懸念はデータ量でカバーできると判断しました。

ーー既存音声を大量にラーニングさせることで、大変だったことはありましたか?

大浦:いただいたテキストと音声ファイルの内容が、テキストでは「〜〜なので」と書いてあるのに音声は「〜〜だから」となっていたりと、ニュアンスは合っているけど全然違うものが多くて……。その修正はかなり手間でした(笑)。

ーー音声合成を使用したことで、新規収録のボリュームは減ったのでしょうか?

柏崎:いえ、そんなことはないです。収録で表現しきれない部分を補うために音声合成を導入したのですが、収録時間を短縮するという目的ではありませんから。それに、一つひとつの言葉に込められた感情の表現やライブ感は収録音声の方がまだ有利だなと思っています。

関連記事