「音のVR」はどのようにして“新たな音楽視聴体験”をもたらした? 開発者を直撃
360度動画の見たい・聴きたい部分に自由自在にフォーカスできる、KDDI総合研究所独自のインタラクティブ視聴技術「音のVR」。この春、同社は日本を代表するプロ合唱団である東京混声合唱団と、定番卒業ソング「旅立ちの日に」など5曲の新しいコンテンツ(以下 本コンテンツ)を制作し、新しい音楽視聴体験を提供する「新音楽視聴体験 音のVR」アプリで配信を行なった。さらに4月24日より、新たに東京混声合唱団のリモート合唱動画も公開されている。
新型コロナウイルス感染症対策による休校や、卒業式の中止・縮小によって合唱による思い出づくりができなかった全国の学生を中心に反響があった同企画。その成り立ちと今後の可能性について、KDDI総合研究所・イノベーションセンター・マルチモーダルコミュニケーショングループ・研究マネージャーの堀内俊治氏に話を聞いた。
ーー改めて堀内さんの手掛けている事業、領域について、詳しく教えてください。
堀内:私はKDDI総合研究所・イノベーションセンター・マルチモーダルコミュニケーショングループに所属している、いわゆる企業研究者です。私が主に研究しているのは音響技術なんですが、マルチモーダルという枠組みの中で、五感の技術を組み合わせてお客様に新しい体験をしてもらう技術を作っています。とくにそのなかでも重要視しているのが「ユーザーセントリックエンターテインメント」という言葉で。これはエンターテインメントとして映像や音響をお客様に届けるにあたって、お客様にある程度の自由度を与える技術に力を入れています。
ーー双方向で成り立つコンテンツ、などでしょうか。
堀内:まさにそうです。インタラクションのある映像・コンテンツの実現に関する技術を手掛けているという形で。
ーー今回は社内にある「音のVR」というアセットを使ったわけですが、そもそもこの技術はどういう経緯で生まれたのでしょう?
堀内:VRで360度映像が流行り始めた2015年前後に、そういう映像を見ながら「音はあまり変わらないな」と感じていて。好きなところにズームして見ることはできても、ズームして聴くことはできなかったので、それを実現する技術があれば面白いのに、と研究を始めました。それと同時に、お客様に対して画角の自由度を提供したい、という思いもありました。そうすることで好きな被写体にフォーカスできるので、アイドルのライブであれば推しメンに近づく、といったようなこともできるだろうと。この技術に関しては、サービスの発想から技術の方を興していった形です。
ーーそれを実装するうえで、一番重要だった技術は?
堀内:音響効果を作るために、既存の技術を組み合わせて新しい手法を作り上げました。そのなかで一番大事なのは、操作に応じてスムーズに、連続的に没入した感覚になるようにすることで、「ステレオ幅制御」「位相シフト」「時間周波数マスキング」という3つの技術を使っています。ステレオの音場を広げたり縮めたりする技術と、従来から研究していた不必要な音を消していく技術や、指向性をつけて音を取り出す技術のことです。
ーー同じ声が連続しているなかで、いきなり視点を変えてもディレイなく音が繋がることが大変だったのでしょうか。
堀内:ディレイがないのは当然として、近づいたりすると頭が音の場の中に埋れていく感じにしたかったんです。そういうことをHRTF(頭部伝達関数)やアンビソニック(立体音響ミックス技術)といった既存のものに代えて、中間的な位置づけとして、一般的な放送システムで使われているサラウンドシステムのような簡単な状態で録音して、ソフトウェア側で加工可能な状態にするのが一番難しかったです。
ーー録音を簡易にし、ソフトウェア側での技術に集約したのは、汎用性を高めるため?
堀内:そうです。録音自体は球状のマイクアレイを使っていて、そこで録った素材から、既存の配信のフォーマットの範囲でステレオに加工して、近づいたり遠ざかることができるというのが重要だったので。
ーー今回「音のVR」を混声合唱団で活用するにあたり、改めて改良した部分は?
堀内:過去にモーニング娘。’18さんやアンジュルムさんでシステムを使用させていただいたんですが、その時はマイクが6つだったのに比べ、今回は19個のマイクを使用しています。合唱団の方は人数が多く、みなさんがハーモニーを成して歌うので、「音のVR」そのものよりも送り出すサラウンドのフォーマットや圧縮のレベルに注意しました。配信フォーマットそのものについては、モーニング娘。’18さんらのときは6chサラウンドなんですが、今回は22.2chサラウンドで圧縮はAACの高いビットレートにして、合唱団のみなさんの粒だった声をうまく送れるようにしています。再生側で言うと、引き画で見たときは全員の合唱として聞こえて欲しいし、ズームしたときは各パートで分かれて聞こえるようにしたかったんです。その変化のし具合というか、線形ではなく曲線的に近づいたり遠ざかったりするようなパラメータの変化も意識しました。
ーーアイドルのライブと違い、混声合唱となると音数も少なくパートも分かれているので、よりその違いがわかりやすそうですね。
堀内:そうですね。技術としてもうまく変化をかけないと不自然に聴こえやすいです。合唱ですから、パートは違えど皆さんほぼほぼ同じところを歌っているわけで、既存の技術を改修してはいないんですが、今回に合わせてパラメータのバランスを変えました。
ーー今回は合唱団×卒業ソングでしたが、音楽以外にも利用できることを想定しているものなのでしょうか?
堀内:昨年には、『CEATEC 2019』で、フィギュアスケートやトライアルバイクといったスポーツ鑑賞技術としても「音のVR」を展示しました。いまはスポーツの見方も変わってきていると思っていて、従来型のテレビ放送やYouTubeだと、カメラマンによって視点が変わっているんですが、360度映像は好きなところを見られるし、基本的には普段撮らない内側の視点から見ることできるのも面白いですよね。フィギュアスケートだと、スケートリンクの真ん中にカメラを置くことで、選手側はいままでにない視点から見られることになるので、社会実装的な側面でいうと、得点の付け方も変わってくるんじゃないか、とか。