深津貴之×バーチャル美少女ねむ対談 メタバースはAIのために、AIはメタバースのためにーーその共振が“世界”を拡張する

アバターも、ワールドも。言葉ひとつで作れる時代に

ねむ:それでいうと、私のいるメタバースの世界では「声」の民主化がはじまっています。好きなアバターを選ぶように、「声」を自由に選びたいという需要は、以前からあったんです。ただ従来のボイスチェンジャーには技術的な限界があって、本当に可愛い声を出そうと思ったら、ボイストレーニングや筋トレといった努力が不可欠でした。

 それがつい先日、「Retrieval-based Voice Changer(RVC)」というオープンソースのAIボイスチェンジャーがリリースされて。これが想像以上の性能なんです。従来のボイスチェンジャーのように元の声にエフェクトをかけるのではなく、リアルタイムに全く別の他人の声に置き換えてしまう。最初は多少の遅延もありましたが、アップデートの度に改善されていって、今は相当に使いやすくなりました。既に数多くのメタバース住人がRVCを日常的に使って喋っています。アバターによる「なりたい姿」に加えて「なりたい声」で喋れるようになることで、「なりたい自分になれる」という私の考えるメタバースの理想に、ぐっと近づけてくれるツールだと感じています。一方でVTuberが声を「盗まれて」勝手に販売されてしまう、といった事件も起こっていますが……。

深津:AIボイスチェンジャーは、僕も色々と調べたことがあって。なにかつくれたら、と思っていたんです。けれどリサーチを重ねるなかで、リアルタイムで声を生成するのはとても無理だという結果に至って、諦めたんですね……。だからRVCが登場したときは驚きました。

ねむ:アバターやワールドも、AIが作ってくれるようになりませんかね? VRChatなどでは、現状はUnityの知識がないと、自由にアバターやワールドをつくれないので……。Unityってほんとに難しいじゃないですか。私も挫折したクチで、実はこのアバターも外注したものなんです。だからそのあたりをAIが担ってくれたらすごく嬉しいのですが、3Dモデルの生成AIってあまり聞かないですよね。

深津:実験的なものは多くでていますが、まだ実用レベルなものは聞かないですね。アバターやワールドをゼロから生成するのは大変なので、まずは既存の3Dアセットを「配置」するAIが登場するのではないでしょうか。3Dモデルも学習すればできると思いますが、ポリゴンの生成からやってしまうと、将来的にデータの形式が変わったときなどに、ヘビーな作業のやり直しが必要になりますよね。けれど「任意の空間に対して、任意のオブジェクトを、任意のルールで並べよ」といったトレーニングをしておけば、データ形式やソフトウェアの変化にも柔軟に対応できます。そういう抽象度の高い設計の方が、個人的には好みです。

ねむ:なるほど。私もイベントを開催するときにオリジナルのワールドを作ったりするのですが、たしかに既存のアセットの組み合わせで十分な場合がほとんどです。こんな音楽ライブをしたい、こんな学術イベントをしたい、だからここにこれを配置して…… と、そう語るだけでAIが代わりに最適なものを作ってくれたら、ワールド制作がいっきに身近になりますね。アバターにしても、私のようにフルスクラッチにこだわる人ばかりではありません。VRChatでは、既存のアバターを改変したり、販売されている衣装と組み合わせてオリジナリティを出しているがほとんどです。言われてみると、AIに代行してもらいやすい領域に思えますね。

深津:人気ゲームの『Fallout』には、優秀なキャラエディターが搭載されているので、あとはAIにつなげるだけで、すぐにプロンプトでアバターが作れるようになると思いますよ。ワールドにしても同じことで、「ワールドビルダーをプロンプトで動くようにしました」なんて、『Fortnite』あたりがいつ言い出してもおかしくない。

ねむ:エンジニアがUnityでやっていた「天地創造」が、誰にでもできるようなるわけですね。聖書の「光あれ」という一節ではないですが、まるで神様みたいに、ほんとうに言葉ひとつで世界が創れてしまう。そうなったら、遊び方の幅もめちゃくちゃ拡がりそうですね。アバターやワールド制作って初心者に対するハードルがものすごく高いと思っていたので、AIによってそれらが民主化されると、メタバースの普及が一気に加速しそうです。

関連記事