「VOCALOID β-STUDIO」×「VoiSona」開発・研究者対談 AI歌声合成ソフトが発展した先に求められる“人間性”

人間とAIの関係における理想形とは

「女々しくて」covered by 機流音

ーーそのように音声合成技術を用いたプロダクツの最先端に携わっているお二人ですが、音声合成分野におけるAI技術の現在地について、どのような意見をお持ちですか?

大浦:例えばマイクロソフトさんの「VALL-E」は、わずか数秒の音声データだけでその音声の合成が可能なんですね。通常であれば収録した数時間の音源をAIにラーニングさせるものなのですが、「VALL-E」ではあらかじめ老若男女あらゆる人の声を十万時間近く収録・ラーニングしていて、そこから似ている音声を探せば良いじゃん、という手法が取られているんです。このようにデータ量が物を言う手法が増えてきましたね。他にも、あくまで研究分野ではありますが、少数民族の文字化されていない希少な言語や民族音楽の発声の再現にチャレンジされている研究者もたくさんいて。それが製品になるかはまた別の話ですが、いずれにせよ、できることの範囲は広がっています。

才野:確かにこの10年でできることが一気に増えた実感があって、その当時にあった課題の多くがクリアされていると思います。そのなかで我々が今課題に感じているのは、AI技術が全自動の方向に発展していくなかで、そこにどのくらいのバランスで人間の意図を織り込むかということです。人間がどのくらいの温度感で伝えたら、AIはどのくらいの温度感で返してくれるか。AIに対して人間がどのようにコミュニケーションすればいいのか、というのはまだ誰も正解に辿り着いていないところだと思うんですね。

大浦:音声合成ソフトでは、声を少し高くしたい場合はスライダーで動かして調整するイメージがあると思いますが、そうではなく「もう少し高い声にして」と言葉でAIに伝えたり、あるいは「もっと柔らかく」みたいなニュアンスを文字で伝えるというパターンも、研究分野ではよく出てきていますね。

才野:ただ、僕は「およんでいないこと」はまだたくさんある気がしています。人の声が再現できるようになったといっても再現度の問題はあって、特に歌声に関しては、音符と歌詞をなぞればその人らしくなるわけではないんですね。一流のミュージシャン/アーティストであればあるほど、その人が持っている歌声に対するセンスやスキルを歌声合成で再現するのは難しい。我々は研究資料として人間の歌声をよく聴くのですが、やはり人間の歌手というのはすごいんですよ。表面的な技術の部分だけでなく、楽曲全体や歌詞の内容も含めて表現やニュアンスを入れるタイミングの絶妙さというのもあって。なのでトータルで考えるとまだまだ機械学習が到達したとは思えないところがあります。

ーー逆に言うと、その人間ならではの細かなニュアンスの付け方やセンスをAIでも再現できるようになる、というのが理想ですか?

才野:個人的には、人間ができる歌唱表現をAIでも再現できるようにしたい思いはありますが、やはりAIシンガーがひとりでに素晴らしい歌声をただ作って終わりにはしたくなくて。ディレクションなり操作する人間がいて、AIシンガーがいて、その共作として1つの作品ができあがる、という形が理想だと思います。あくまで人間とAIがコミュニケーションして1つの音楽作品を作ることが大事で、要は人間が「こういう音楽表現をしてほしい」と思ったときに応えてくれるスキルのあるAIにしたい、ということですね。

ーー大浦さんは、人間らしいニュアンスの再現性についてどのようにお考えですか?

大浦:どちらかと言うと、その辺りはもはやデータ量の問題という認識ですね。100曲に1回しか出てこないレアな歌唱表現だとしても、データが1万倍になれば1万回出現することになるので再現可能だと思うのですが、とはいえアーティストさんは1万時間も歌ってくれないですから(笑)。ただ、VOCALOIDさんにせよ、他社さんの製品にせよ、それぞれのソフト固有の「こういうクセを入れる」というのは再現できているイメージがあります。

ーー歌声の再現性が高まっていくと、アーティストやクリエイター自身が制作する音楽や表現自体にも影響が出てくると思うのですが、その点についてお二人はどんな意見をお持ちでしょうか。

大浦:先ほど才野さんは「(VOCALOIDは)クリエイターに向けたもの」というお話をされていましたが、私はAI側がもう少し頑固でもいいかなと考えていて。それは「VoiSona」のテーマである「AIと人間の共存共栄」にも関係するのですが、いずれは音声合成でどんな声やクセも表現できる世界になるなかで、各アーティストさん/クリエイターさんのバックグラウンドがより大きな要素になっていくと思うんですね。であれば、AIも技術的にはどんな歌声も作ることはできるけど、あえてボイスライブラリごとのクセを残すことで、元になったアーティストさんのバックグラウンドが感じられると思うんです。そこから元になっているアーティストの楽曲を聴いてファンになるという流れもあり得ると思います。ただ、一方でクリエイターさん側にも調声作業のクセがそれぞれにあるので、それを反映するためにはAIが頑固すぎるとダメで、ある程度のコントローラビリティが必要なんですよね。

才野:そのバランス感は難しい課題ですね。

大浦:これはおそらく才野さんも経験があると思うのですが、声の提供者になったアーティストさんとお話していると、自分が得意としている歌い方をAIが意外な箇所で反映していて、アーティストさん本人が逆に大きな気づきを得るパターンもあるんですよ。「これは自分の歌い方ではない」と思うのではなく、「こういう歌い方もアリかも」という逆輸入の感覚がある様子で。

才野:それは確かにありますね。アーティストさんの歌声をモチーフにしたAIシンガーの歌をご本人に聴いてもらったときに、自分のようでいて自分ではない存在が新しい音楽を生み出していることに面白さを感じてもらえることが多くて。ただ、音楽業界一般で考えると自分の声をモチーフにしたAIシンガーが存在していないアーティストさんがほとんどなわけで、そういう人たちは「今後のAI時代をシンガーとしてどのように生き抜いていけばいいのか?」という考えになると思うんですね。それに対する解答が我々技術者サイドにあるわけではないのですが……。

 ただ、現在のAIは「この人ならきっとこう歌うだろう」という解を統計的に導くアルゴリズムであることが多いので、自分の個性を一瞬だけ発露させるみたいなところは苦手なんです。例えば、100曲のレパートリーのうち1曲だけでものすごくシャウトしている歌い方がそのアーティストの人間性をよく表している場合、それは統計的にはノイズとして考えられるので、AIでは再現されづらい。そうなると、個性や味をどこに出していくか、その人の生い立ちといったすべてを含めた「人間性」の再現がより重要になっていくと思いますし、それが先ほど大浦さんがおっしゃっていたことでもあるのかなと思います。その一方で技術がそこまで到達するにはまだ時間がかかると思うので、アーティスト側にとっても「人間らしさをより発揮する」ということも今後重要になってくるのではないかなと想像しています。

関連記事