音楽同位体 可不やバーチャル若大将で話題に CeVIO AI開発者に聞く、“声”を後世に残す音声創作ソフトの未来
AIによる深層学習などを活用した「歌声合成」の技術を使い、声質や癖、歌い方を高精度に再現する音声創作ソフト・CeVIO AI。CeVIO Creative Studioをアップグレードして生まれたこの製品は、2021年の発売以降バーチャルシンガー・花譜の音楽的同位体「可不」を使ったツミキの「フォニィ」を筆頭にした様々なヒット曲に使用され、存在感を強めている。
VOCALOIDとはまた異なる設計思想でつくられたCeVIO AIの誕生秘話や、歌声合成ソフトウェアを使ったエンターテインメントの可能性などについて、株式会社テクノスピーチの代表・大浦圭一郎氏に聞いた。(杉山 仁)
CeVIO AIの設計思想は「人の声を再現する」
――音声合成ソフトウェア「CeVIO」シリーズは、大浦さんらが在学中に開発した音声合成システムがもとになっているそうですね。開発までの経緯を教えていただけますか?大浦圭一郎(以下、大浦):もともと音声合成は、音を収録して切り刻んで、上手くクロスフェードして貼り付けるルールづくりを設計することだと思われていたのですが、私が大学で研究室に入った2005年頃から2010年頃にかけて、そうした「音声合成は職人がつくるものだ」という世界が終わりを迎えつつありました。そして、代わりにメジャーになってきたのが、AIの力を借りて自己学習で音声を合成する方法です。AIを使った音声合成では、一度学習すると切り刻んだ波形をストックする必要がないので、小型化が可能になります。その結果、それまで何百メガバイトもの波形の蓄積が必要だったことが、数メガバイトで実現できるようになりました。私が在学中に開発した音声合成システムも、オープンソースで公開していたところ、「〇〇社のナビに使っていただきました」など、トーク機能の分野で様々な事例が増えました。
ですが、一方で、当時は軽量性やトーク機能の方ばかりに需要が集中していまして、もともとこのシステムは怒るように喋ったり、歌まで歌ったりできるのに、「なかなかそういった使い方はしてもらえないな」とも感じていました。そこで、「実はこんなこともできるよ」と、自分自身で使い方を提案しようと立ち上げた会社がテクノスピーチでした。その後、縁あってテクノスピーチとフロンティアワークスさん、ソニー・ミュージックさん、ブイシンクさん、アップフィールドさんの5社で集まったのが、CeVIOプロジェクトのはじまりです。
――自身で開発した音声合成システムでできることを認知してもらおうとしたことが、CeVIOシリーズの歌声合成ソフトウェア誕生に繋がっていったのですね。
大浦:最初にお話をくれたのは(デジタルサイネージを得意とする)ブイシンクさんで、「CEATEC」などで知り合い、「喋るデジタルサイネージの領域で面白いことをしたい」という話になりました。ブイシンクさんのお声がけで、アップフィールドさん、アニメイトさん(フロンティアワークスの親会社)、ソニー・ミュージックさんと繋がり、「互いの得意分野を生かして、様々なサービスを考えよう」という構想でCeVIOプロジェクトがはじまったんです。ですから、CeVIOはもともと歌声合成だけでなく、様々な領域を想定したものでした。まずは2013年に、デジタルサイネージの「CeVIO Vision」がアニメイトの店頭などで展開され、次にCeVIO AIの前身にあたる音声創作ソフトウェア「CeVIO Creative Studio」がスタートしました。売上的には、歌声合成機能よりもトーク機能の方が圧倒的に多い状況でしたが、ニコニコ動画などで様々な方に曲をつくっていただきました。
――そして2021年に、CeVIO Creative Studioをアップグレードした「CeVIO AI」が発売されました。この製品がどんなふうに生まれたのかも教えてください。
大浦:CeVIO Creative Studioでは、統計モデルの一つである隠れマルコフモデル音声合成(HMM)を使用していましたが、その表現性能、覚えこませられる情報量には限界がきていました。ですが、2013年頃の国際会議が最初だったと記憶していますが、「音声合成にディープニューラルネットワークを使おう」という手法が出てきたことで、性能限界に変化が生まれました。同時に、パソコンの性能も向上してきたことで、その技術を製品にすることも可能になっていきました。研究では合成にどれだけ時間がかかっても結果が出れば問題はないのですが、当初は一回合成を開始したら、次に音が出てくるのは1日後というような感覚だったので。
――なるほど(笑)。それでは製品にはならなそうですね。
大浦:そうして色々な面で高速化が進み、「これならいいね」というものが出来たのが2018年のことでした。そこで、国際会議で発表してCeVIO AIのプレスリリースを出し、以前から出していたさとうささらの音声データをCeVIO AIに学習させたり、結月ゆかりやIAといった音声合成の中で認知度のあるサードパーティーの方々にお声がけをして、音声を収録していったりしたところ、製品としては2021年に発売することになりました。
――CeVIO AIシリーズの歌声合成ソフトウェアは、限りなく人のように自然な音声を実現できることが最大の特徴だと思います。これはどんなふうに実現しているのでしょうか?
大浦:世の中の音声合成ソフトウェアの設計思想にはいくつか種類があって、例えば「楽器」として設計されているものや、「人の声の再現」として設計されているものなどがあります。「楽器」として設計されている場合、利用する方は細かい装飾音符を書いて、“神調教”と言われるような処理を施したりしますよね。ですが、CeVIO AIの場合は、設計思想がそもそも楽器ではなく、「歌声を再現する」方に向いています。私たちの目標は、あくまで「人の声を再現する」ことなんです。CeVIO AIでは、実在する人物の音声データを分析して、「ピッチはこう」「子音の長さがこう」と様々な情報を読み取ることで、楽譜情報から音声を合成します。ビブラートですと、「この人は音符が○秒以上続くと○秒あたりからビブラートする」ということを、過去のデータから学習します。つまり、収録データにすべての答えがあるんです。
――その分析精度が上がれば上がるほど、自然な人の声に近づいていく、と。
大浦:はい。うちのシステムでは歌が上手な方のデータを学習すると歌が上手く再現されますし、逆に音痴な方の歌を学習すると、どんな楽譜を入力しても音痴な歌が再現されることが正解としています。もちろん、クライアントさんの中には、「本人の声と似すぎていて使えない」と意見もあるので、そういった際には追加でディープラーニングの手法を変えたり、あえてケロらせて機械的な音声にしたりするなど、一度学習した後に声を変えることもあります。その辺りは、これまでに蓄積した種々のノウハウがありますので、クライアントさんそれぞれに好きな形を選んでいただいています。
――CeVIO AIの場合、楽器と違ってプレイヤーの修練ができる音に直結するものではないという意味で、知り合いのシンガーに歌ってもらう感覚により近いのかもしれません。
大浦:そうですね。勘違いしていただきたくないのは、この2つはどちらがいい/悪いという話ではなく、ただ「別のものである」ということです。楽器タイプの音声合成ソフトウェアでは、クリエイターの方々が細かく調声をすることで、人には出せない表現をすることが可能です。一方、CeVIO AIは、元データの声を再現するのは得意ですが、声の持ち主が再現できない複雑な情報が入力された場合、むしろAIが混乱するようにつくられています。やはり、この2種類の音声合成ソフトウェアは、似ているようでいて大きく違っているんです。
――ちなみに、ひとつの製品を作る際、ボイスサンプルはどれくらい必要なんですか?
大浦:今ですと、2時間半ほどの音声データがあればその方の歌声を再現可能です。もちろん、新規で収録できればその方がいいですが、不可能な場合は過去のデータでも対応可能です。嵐のみなさんの「HELLO NEW DREAM. PROJECT」を担当した際も、その形で制作させていただきました。一方で、過去の収録曲が数曲しかないケースで制作することもあります。特に外国語を合成したい時などにそのような状況になりますが、その場合は他の演者さんのデータ分析結果を補助的に利用するなどで対応しています。