2023.10.14 18:00

「VOCALOID β-STUDIO」×「VoiSona」開発・研究者対談　AI歌声合成ソフトが発展した先に求められる“人間性”

文・取材＝北野創

AI音声合成技術の未来に対する期待と危惧

ーーそんななかでお二人がAI音声合成技術の未来に感じることをお聞かせください。

大浦：最近は画像生成AIでイラストレーターさんの許諾を取らずに画像を学習しているという話もありますが、AI音声合成技術の業界でも、必要なライセンス表示がないまま製品やサービスがリリースされたり、出自のわからない音声データベースを学習したAIモデルが公開されたりしているケースもあって、無法地帯になりかねない状況を危惧しています。

　それこそYouTubeが台頭してきた当初は無法地帯で、いろんな動画が無許可でアップされていたじゃないですか。もちろん今はクリーンになっていますが、YouTubeが動画サイトで覇権を取れたのは、クリーンじゃなかったことも大きいと思うんですね。うちは信頼感を大切にしていて、グレーなことは一切しませんし、許諾が取れたものしか絶対に使用しないことを公言しているのですが、YouTubeのことを例に取ると、うちやヤマハさんのようにクリーンにやっているところが、そのまま成長していけるとは限らない面もあって（苦笑）。これはAI技術という分野全体の話になりますが、悪いことをやったもの勝ちになりがちな気がしています。才野さんもそう思いませんか？

才野：まったくその通りだと思います（苦笑）。権利回りというのは特にセンシティブで、我々は4年ほど前に「AI美空ひばり」という取り組みを行ったことがあるのですが、そのときは世間的にも大きな賛否両論が巻き起こりました。もちろん権利を持っているご遺族の方に音声を提供していただいていましたし、我々に後ろめたいことは何もないのですが、アーティストに無許可で勝手にAIシンガーを制作することが現実的に可能な状態になっているなかで、我々は一体どうするべきかを考えたときに、これは社会的なテーマとしていろんなところが手を取り合って一緒に考えるべき話だと思うんです。歌声合成に関わる企業や自治体、もしかしたら国も含めた話し合いを行ったうえで、みんなで約束を守りながらクリーンにやっていく必要があると思います。

大浦：今はフェイクニュースが溢れていて、Photoshopがあればどんな画像も作れてしまう時代じゃないですか。それと同じようにいろんな人の歌や声が再現できてしまう時代でもあるのですが、まだそのことが世の中にあまり認知されていないと思うんですね。だからこそ、「声」というものは意外とたやすくマネられてしまうものであるということを啓蒙していきたいと考えています。

才野：まったく同じ意見です。音声合成AIとクリエイター／アーティストの理想の関係性を築くためには、やはり「知る」ことが大事だと思うんですね。AIには何ができて何ができないのか。専門家であれば想像がおよぶ部分もありますが、知らない方にとっては怖い部分があると思いますし、自分の声が誰かに奪われてしまうかもしれない不安を抱くと思うんです。そういう危険性があるということを認知したうえで、AI音声合成技術の存在を知っていただけるのが一番いいのかなと。

大浦：そうなんですよね。合成写真を見た場合も、そういう技術があることを知っていれば「これは合成だな」とわかるわけで、音声合成についても、どんなものなのかを知ってさえいれば騙されるリスクは減ると思います。

ーーただ、先日、ドレイクとザ・ウィークエンドを模倣したAI（人工知能）生成トラック「Heart on My Sleeve」がグラミー賞の選考に提出されるケースもあったように、AIシンガーを用いて作られた楽曲を聴いても気づかない可能性があります。例えばサブスクやYouTubeで聴いたときに、それがAI音声合成であることをパッと視認できるような仕組みを作ることは可能でしょうか？

大浦：「しゃべり」や伴奏がないものについては、そういう研究が盛んに行われていて、いずれは例えばiPhoneに電話がかかってきたときに「これは合成音声だけど大丈夫？」みたいなアラートがつくような仕組みはできると思います。ただ、楽曲になると「歌声」だけでなく伴奏がミックスされるので、当面は判別は難しい気がしています。

才野：確かに難しいとは思いますが、すごく重要なテーマですし、今後「見破る」ほうの技術もどんどん発達していくと思います。今お話のあった「しゃべり」の部分だけでなく「歌声」の面でもかなり取り組みが進んでいますし、最近は音源分離の技術の精度も高まっているので、そこを課題意識に設定した研究は成長していくと思うんですね。

ーーもう1点、AI技術と人間の関係性という意味では、先ほど話題に上がった「AI美空ひばり」のときは倫理的な部分で話題になった印象もあります。才野さんは実際にプロジェクトに関わられたなかで、どのような考えを持たれているのでしょうか。

才野：やはり故人の音声を取り扱うことはものすごく繊細なトピックであることは、開発当時から感じていたことで、あのプロジェクトも遺族の方の意向と了承を得たうえで、音楽関係者の皆さんやNHKさんのスタッフの方々と一緒に入念に進めていたのですが、それでもいろんな方から「冒涜的に見える」という声が多くあがりました。ただ失敗だったとは認識していなくて、「音楽を聴いて勇気をもらった」とか「昔を思い出して感動した」といった声もあったわけですね。あのときは『NHKスペシャル』で技術者がひばりさんの歌声を再現したいという気持ちを持って制作したというバックボーンを知ったうえで観た方と、『NHK紅白歌合戦』で初めて「AI美空ひばり」を観た人で意見が分かれていた印象があって。その声がどういう意志や意図をもって作られたものなのかが十分伝われば、容認してくださる方もいるわけです。

　あとは「歌はいいけどしゃべらせるのはやりすぎ」という意見もありました。歌の場合は作詞・作曲者がいて、その人が作ったものをAIシンガーが歌う形になりますが、「しゃべり」というのはその人の気持ちの発露を表現しているので受け入れられない方が一定数いらっしゃって。あの曲の中の語りの部分は歌詞カードにも書いてある「歌詞」であって、そこも音楽作品として捉えていたのですが、そこはいろんな角度からの見方があるので、結論づけるのは難しいですし、その1つひとつが倫理的に繊細な問題を抱えているので、故人の方のプロジェクトはよほどケアをしない限りは難しいと思います。

大浦：弊社も5年ほど前に、三波春夫さんの歌唱データを元にした「ハルオロイド・ミナミ」さんを、ご遺族の方の同意のもと、先方からのオファーを受けて制作したことがあるのですが、やはりなかなか難しいですよね。

ーー以前に大浦さんは「声は文化財」というお話をされていて。例えば全盛期の歌声を発揮できなくなった歌手の方の声をアーカイブして、数十年後に蘇らせる、という発想もあると思うのですが。

大浦：そこは「蘇る」というよりも「後世に残す」というイメージですかね。特殊な声やしゃべり方のできる歌手や声優の方の声というのは一種の無形文化財や国宝の類だと思っているので、残していきたい気持ちはありますが、もしご本人が拒否するのであれば、やるべきではないと思います。例えファンの側が残していきたいと考えたとしても。

才野：テクノスピーチさんは、加山雄三さんの音声合成AI（「バーチャル若大将」）を開発されていましたよね。

大浦：そうですね。加山さんはコンサート活動を休止されることになって。まさに自分の声を文化遺産として残したいというお考えをされている方なんだろうなと思います。新しいことに果敢に挑戦される意識はすごくかっこいいなと思いますね。

才野：我々も昔に小林幸子さんの歌声のVOCALOID製品（「VOCALOID4 Library Sachiko」）を発売したことがあって。それは「Sachiko」というキャラクターとして出したものではあるのですが、小林さんご自身が「もし私がいなくなったとしても、私の声でいろんな人が楽曲を作り続けてくれる。そんな素晴らしいことはない」とお話されていたんです。小林さん自身がそう感じられていることが重要だと思いますし、そういった意図で製品開発を行って楽曲を作る人が現れることはとても素晴らしいことだと思います。

ーー倫理的な部分を含めいろいろな課題はありつつも、AI音声合成技術が発展することによって、クリエイターやアーティスト側の想像力やクリエイティビティが膨らむ面もあると思います。その意味で希望を抱いていることはありますか？

才野：私たちが期待をかけているのは「AIの自主性」で、AIと人間がいいバランスでやっていくのが大事と考えたときに、AI側にもある程度、発信している力を持っていることが大事だと思うんです。例えば、人間同士の関係でも、ディレクターが歌手に対して「こういう表現をしてほしい」と伝えたときに歌手が自分なりの表現を返し、ディレクター側が「それいいね」という気づきを得るということはよくあることだと思うんです。AIが人間と一緒に音楽を作り上げるパートナーとして考えた場合、AI自身の自主性が人間のクリエイティビティや発想に良い影響をもたらすだろう、というのが我々も信念を持ってやっているところで、人間がAIを完全にてなづける関係性ではなく、AI側もある程度の自主性を発揮することを重視してやっています。

ーー実際にそういった「AIの自主性」というのは形になるものなのでしょうか？

才野：「自主性」という言葉にするといろんな想像をされると思うのですが、ミニマムな形ではすでに実現していると思います。例えば、音符と歌詞を打ち込んだときに、「自分が思っていたよりもかわいく歌ってくれて、このフレーズすごくいいな」と感じて、「ここをこう歌うのであれば、次のメロディはこうしてみよう」ということが実際に起こっていて。それはただ打ち込んだ通りの音が鳴るだけのDTMであればなかなか得られない気づきなので、そこは地味だけど重要なポイントだと思います。その意味では、先ほど大浦さんがお話されていたアーティスト側がAIの歌を聴いて気づく例は「人間のシンガー」と「AIシンガー」でしたが、「人間のクリエイター」と「AIシンガー」の関係でもそれが起こると考えています。

大浦：まさしく今、才野さんがおっしゃっていた通りで、私がお話したAIの頑固さやコントローラビリティのお話もそこに繋がるものですし、私もAI音声合成技術はクリエイターさんの創造性にも寄与していくものになっていくはずだと思います。

VOCALOID β-STUDIO 公式サイト
https://vocaloid.beta.yamaha.com/

VoiSona公式サイト
https://voisona.com/