AIボイチェンはバーチャルな存在に“魔法”をかけるのか? 「メタバース進化論」から2年後のバーチャル文化(後編)

著者が語る、2年後の「メタバース進化論」(後編)

 2022年3月19日、技術評論社より『メタバース進化論――仮想現実の荒野に芽吹く「解放」と「創造」の新世界』(以下、『メタバース進化論』)が刊行された。コロナ禍によりメタバースが一挙に注目を集めることとなったタイミングで世に出た本書は、VRChatをはじめとするソーシャルVRの“住人”たちの文化を通して、技術の進化の先に訪れる未来を語ったものとして大いに反響を呼んだ。

 それから2年――日常風景の多くはコロナ禍以前に戻り、「メタバース」という言葉を目にする機会もひと頃と比べれば少なくなった。『メタバース進化論』で未来の原風景として描かれたソーシャルVRは現在どうなっているのだろうか? 『メタバース進化論』刊行2周年を記念して、著者であるバーチャル美少女ねむ氏に、本書の担当編集・石井氏が“メタバースの今”を伺った。

 折しも2023年11月にねむ氏は『ソーシャルVRライフスタイル調査2023』を発表している。これはソーシャルVRの利用者を対象にした大規模公開アンケート調査であり、『メタバース進化論』のもととなった『ソーシャルVRライフスタイル調査2021』の後継でもある。「2023」と「2021」二つの調査の比較も交えつつ“メタバースの今”を「前編」「後編」の2回に分けて探っていく。

 前編では刊行から2年、VRの世界の変化について人口増加・経済活動の観点から伺った。「後編」となる今回は、テクノロジーの進化・各専門家との交流による「バーチャル文化」の変遷について話を伺っていく。

※本インタビューは技術評論社にて公開された記事を、バーチャル美少女ねむ氏、技術評論社の許諾を得て、一部編集のうえリアルサウンドテックに転載した記事になります。

“どんな声にでもなれる”技術「AIボイスチェンジャー」の登場

――実は、これが個人的に一番聞きたいことだったのですが、音声コミュニケーションの選択肢に「AIボイチェン」という言葉が登場していたのが気になりました。ボイスチェンジャー(ボイチェン)の利用動向の変化について聞きたいです。

ねむ:音声コミュニケーションに関してこの2年間で一番の事件はAIボイチェンが登場したことで、実際にどれくらいの人が使っているのか知りたかったんです。ふたを開けてみると面白い結果になりました。

 グラフの赤が新しく登場したAIボイチェン、オレンジが私が使っているような従来のエフェクター方式のボイチェン。結論からいうと、ボイチェンを使っている人の一部がAIボイチェンに移行しただけで、ボイチェン全体の割合は実は2年前と同じ9%のままで変わっていないという結果でした。AIボイチェンの登場で「メタバースでは自由な声で話せる時代になったのでは」と言われがちなんですけど、実はまだそうでもないんです。

――もともとボイチェンを使っている人の間でだけ利用されているような状況なんですかね。

ねむ:まず「AIボイチェン」がどのようなものかをご説明しましょう。まず、今私が使っているような従来型のボイチェンがやっていることは、ようはエフェクターです。私のもとの声にエフェクトをかけることで声の高さや音色などを変えています。

 翻ってAIボイチェンはこれとは根本的に異なるもので、機械学習で地声と変換先の声をそれぞれ学習し、リアルタイムに全く別人の声に置き換えてしまいます。たとえば石井さん(『メタバース進化論』担当編集)の声をかわいい声優さんの声にすることも、理論上は可能というわけです。

 AIボイチェンのメリットは、従来型のボイチェンと違って“どんな声にも変換できる”ことです。ただしデメリットもあって、一番はシンプルに演算処理が非常に重たいーーつまりPCに負荷がかかることですね。VRをやるだけでゲーミングPCのビデオカードの処理能力を使い切っているのに、そこにくわえてAIボイチェンも満足に動かそうとすると、もう1枚ビデオカードが欲しくなってきます。

 そして、重たいということは、当然処理に時間もかかるわけです。その結果、現状では発話から変換、出力までにタイムラグが発生するので、リアルタイム性ではエフェクター方式に劣ってしまうのが欠点です。性能が良いビデオカードを使っても変換にコンマ何秒とかかかるわけですし、会話のテンポが阻害されてしまうので当然しゃべりづらい。

 この問題を解決するために、「相手にはかわいい声が聞こえている」と信じて「変換後の声を自分では聞かない」という方法もあって、実際にそのやり方をしている人も私の周りには結構います。ただこれにも難しい問題があって……。

“バ美肉”に欠かせない「声」にまつわる技術を惜しげも無く公開 『バ美肉紅白2023』レポ

昨今、ソーシャルVRを中心に大きな広がりを見せているメタバースは、自身の好きなアバターを使用することで、「なりたい姿でいられる」…

声は“自分自身”に魔法をかける

ーーねむさんはエフェクターを用いる、いわゆる「ハードウェア方式」のボイスチェンジャーを利用しているんですよね。

ねむ:はい。声はハードウェア方式の外付けボイスチェンジャーで変換していて、パソコンでは一切演算処理してないんです。そして、ノータイムで変換後の声が自分に戻ってきています。石井さんが今聞いている私の声がイヤホンを通して耳に戻るようにしているので、私にはもとの自分の声が全く聞こえない状態になっています。私の声は私自身にとっても「ねむちゃん声」で上書きされているんです。

ねむ氏が使用しているボイスチェンジャー(本人Xより)

ねむ:これはすごく重要で、本にも書いたんですが、声は単なるコミュニケーションツールというよりは、アイデンティティの構成要素だと私は考えています。声の一番のオーディエンス、魔法をかける対象は、実は自分自身なんです。

 私はボイチェンをかけるとしゃべりかたも普段とはがらっと変わってしまいます。たとえばですが、相手にはかわいい声で聞こえているとしても、自分には自分の声がおっさんの声のままで聞こえていたら、かわいい振る舞いや喋り方ができると思いますか?

――うーん、できない気がしますね。

ねむ:そう、できないですよね。自分の中の違う自分を引っ張り出す意味で、変換後の声がリアルタイムで自分にフィードバックされることはものすごいインパクトを秘めているので、遅延がないのは大事なんです。

 そう考えたとき、AIボイチェンは遅延が大きいので、それが難しいのが欠点の一つですね。また、同様の理由で歌を歌ったりすることも難しいです。そのかわりに、もとの声質と関係なく、学習データさえあればまったく異なる声に変換できるので、好きな声になれるというわけです。

――そうなってくると、声優の方々が問題視している事例にも近づいてきますね。

ねむ:ディープフェイクやなりすましの問題ですね。アニメに出演している声優さんなどは無限に学習データがあるので、技術的にはいくらでも声が盗まれてしまう。そういった権利上の課題もAIボイチェンにはありますね。

 そういう事情もあって、現状AIボイチェンでは「ずんだもん」の声を利用する人がすごく多かったりします。あの声は比較的自由に使える規約になっているので、今『VRChat』でずんだもんの声で喋っている人はだいたいAIボイチェンだと思っていいです。

――ねむさんが覚えているかはわからないですが、『メタバース進化論』執筆の際に「声に関する部分をもっと短くできませんか?」とコメントしたら、「私の言いたいことが石井さんにまったく伝わっていないことがわかったので、全部書き直します」って返事が返ってきて……。

ねむ:それで倍くらいの文章量にして戻したんですよね(笑)。石井さんの意に逆らって。

――それもあって、声とアイデンティティの関係はこの本で一番印象に残っているところでした。

ねむ:こういうのは体験しないとわからないですからね。私自身も、声がアイデンティティを構成する要素のひとつなのだとしっかり説明しないと、一般の方に理解してもらえないとわかって、あのエピソードはとても勉強になりました。アバターなどと違ってビジュアルで説明しづらいので、直感的にわかりづらいんですよね。

――話は戻りますが、『VRライフスタイル調査』の結果では、AIボイチェンはそこまでシェアを獲得できなかったと。

ねむ:現状はそうですね。でも、AIボイチェンの秘める可能性はものすごくおおきいですよ。たとえば、複数の声を混ぜて全く新しい声を作り出すこともできる。遅延や権利の問題さえ解決できれば、一気に利用者が増える可能性はあると思います。ただ、やはり現段階では「実用化まではあと一歩かな」というのが、実際に試した私の印象ですね。

――ちなみに、そういった問題が解消した場合、ねむさん自身はAIボイチェンを使いますか?

ねむ:それは……良い質問ですね(笑)。今から全く新しい美少女として活動をはじめるなら迷わず使ったと思います。実際のところ、声のかわいさではAIボイチェンには敵わないと思うので。でも、私の場合は長らく活動を続けて来ていて、この特徴的なガビガビ声が私自身のアイデンティティと深く結びついてしまっているんです。

 実は、AIボイチェンの紹介動画も作ってYouTubeで公開したことがあるのですが、「ねむちゃん声変えないで!」みたいなコメントが意外と多くて、複雑な思いでした(笑)。

リアルタイムAIボイチェン「RVC」で完全美少女ボイスになってみた!【機械学習 by Retrieval-based Voice Conversion】

――たしかに、正直ねむさんといえば「この声」という印象はすごく強いです。

関連記事

インタビュー

もっとみる

Pick Up!

「インタビュー」の最新記事

もっとみる

blueprint book store

もっとみる