“安心安全”なAI歌声ライブラリはなぜ生まれたのか? 無限の可能性を秘める「LAUGH DiAMOND」P&Dインタビュー

 コナミデジタルエンタテインメントは、AI歌唱エンジンを用いた音声合成ソフト「VoiSona」(ボイソナ)向けのAI歌声ライブラリ「LAUGH DiAMOND」(ラフダイヤモンド)シリーズを4月1日に発売した。プロジェクトが持つコンセプトや、音声合成ソフトが乱立するなかでの独自の魅力、そしてキャラクターたちの歌声などについて、プロデューサーのラフダイP、ディレクターのこーじDに話を聞いた。

VoiSonaの特徴が「圧倒的な個性」に

――今年4月1日にVoiSona向けAI歌声ライブラリ「LAUGH DiAMOND」シリーズがリリースされました。反響はいかがですか?

ラフダイP:リリースするにあたって、VoiSonaを開発されたテクノスピーチさんといろいろやり取りさせていただいていたのですが、「苦労するとは思いますよ」と最初から言われていたんです。たとえば、可不(CeVIOプロジェクトが手がける音声創作ソフトウェア“CeVIO AI”用の音声合成ライブラリ)があれだけ話題を集めたのは、可不の音楽的同位体であるVTuberの花譜の活動がしっかりあったうえで、リリースにあたってはオリジナルソングの発表などを含めたプロモーションをやられていたからこそだと思うんです。そういった意味で、我々はまったくもってゼロの状態から始めていますからね。

 実際、リリースしてみて感じたのは、「たしかにな」ということで(笑)。ただ、おもしろいのはリリース数日で4キャラクター分の“歌ってみた”音源をネット上にアップされている方々もいらっしゃって。その9割が外国の方なんですよね。「どういうことなんだ、これは⁉」と思いつつも、おもしろい動きとして注目しています。

ラフダイP

――外国の方は常にアンテナを張り巡らせて、日本のカルチャーに対して敏感に反応する傾向がありますよね。

ラフダイP:そうですね。今回の取り組みをするにあたっていろいろアドバイスをいただいていたドワンゴさんも、ボカロに興味を持つ海外のDTMファンの方々が増えてきているというお話をされていました。しかも、海外の方なのに、みなさん日本語で歌わせているというのがおもしろい傾向で。音声合成ソフトは日本語を簡単に歌わせられる。そこに価値を感じていらっしゃるんでしょうね。そういう方々こそが、もしかすると「LAUGH DiAMOND」のイノベーターさんなのかもしれません。

――そもそもゲームメーカーであるKONAMIさんが音声合成ソフトのシーンに参入しようと思ったのはなぜですか?

ラフダイP:私はもともと、歌うとか喋るだけに限らず、考える、生成するという部分も含めたAIというものに非常に興味を持っていて。7年くらい前から実験や研究、検証をうっすらと続けてきてはいたんです。

 そのなかで生成AIの議論がここ数年、急速に高まりを見せてきたじゃないですか。世の中からの期待も大きいし、実際使われるのも当たり前の状況になってきた。そこで必要だと思ったのは、安心で安全な生成AIを作ることだったんです。

 権利が怪しいものだったりすると、ユーザーさんは安心して使えないですからね。それなら大きな看板を掲げている当社のような存在が参入すれば、みなさまに安心して使ってもらえるものが提供できるんじゃないかなと、「LAUGH DiAMOND」チームとしては考えています。結果的にかなりの時間がかかりましたけど、リリースのタイミング的はこれが一番よかったんじゃないかなとは思っています。

――安心・安全な製品をリリースすることに対しては、テクノスピーチさんも非常に大事にされていますよね。そういった理念を認知させるという意味で、KONAMIさんのようなある種、サードパーティ的な企業がどんどん増えていくのは重要なことのような気がします。

ラフダイP:我々「LAUGH DiAMOND」チームもそこが重要だと思っています。AIを扱っていくところは、安心で安全なものを提供しないと生き残っていけませんからね。そういう企業が多数参入していけば、必然的にシーン全体が安全なものになっていくと思います。

――こーじDは構想段階から「LAUGH DiAMOND」には参加されていたんですか?

こーじD:僕は途中からですね。

ラフダイP:こーじDの本職はゲームのサウンドディレクターなので、私が作ったレールに途中から乗っかってもらった感じです。各キャラクターの音声データが揃ったタイミングで、「じゃあこれを、調子がいいバージョン、めちゃくちゃ上手いバージョン、普通のバージョンで歌えるように調声して」と言って大量にテストデータを作ってもらいました(笑)。

こーじD:投げられたっていう(笑)。

ラフダイP:その結果、こーじDは信じられないぐらい調声が上手になったんですよ(笑)。しかもめちゃめちゃ作業が速い。すさまじいボリュームの調声をやってもらいましたからね。もはや調声のスペシャリストの領域に達していると思います。しかも、VoiSonaのバージョンが上がったら、過去に調声したものを聴き直して手直ししたりもしていますからね。

こーじD

――こーじDはもともと、音声合成ソフトに触れたことはあったんですか?

こーじD:初音ミクや鏡音リン・レンなどヤマハさんのソフトはけっこう使っていましたね。ただ、それ以外はまったく使っていなかったので、いきなりVoiSonaを渡されたときはちょっととまどいました。

――VoiSonaは初心者でも使いやすいところが評価されていますよね。

こーじD:たしかにそうなんですが、最初はちょっと慣れない部分もあったんです。そこはテクノスピーチさんとやり取りしながら、バージョンアップという形で改善してもらったりもしました。そうやって使い込んでいくことでVoiSonaの良さがどんどんわかっていって。VoiSona、めっちゃいいですよ。

――さまざまな音声合成ソフトが存在する中、VoiSonaだけが持つ魅力ってどんなところにあると思いますか?

ラフダイP:今回、「LAUGH DiAMOND」を商品化するにあたって、プロで活躍されているボカロPさんやクリエイターの方々ともいろいろお話させていただいたんです。そこでみなさんが口を揃えておっしゃったのが、「某音声合成ソフトの音質が非常によくて使いやすい」ということで。「どういうことなのかな」と思って、こーじDに聞いてみたところ、「波形やデータを見ても、VoiSonaとそこまで大きく変わらない」という返答をもらったんです。

 そこからもっと突き詰めて考えていったところ、クリエイターの方々が口を揃えて「良い」と言っていた某音声合成ソフトは、調声をあまりせずともいい感じに上手に歌ってくれるという結論に辿り着きました。VoiSonaの場合は、たとえば特定の状況でピッチが上ずったりする癖なんかまで含めて、CVの方の歌声を忠実に再現しているので、使用する音声ライブラリによっては無調声だと下手に聞こえちゃう部分もあったりするんです。

こーじD:うん。でも、それがいいんですよ。楽器的なものを志向するか、生身の人間的な歌い手を目指すかという違いですね。

――一見、そこが弱みになってしまいそうですけど、こーじDはそこを魅力に感じたと。

こーじD:そうですね。

ラフダイP:その理由は「LAUGH DiAMOND」のスタート時点でのコンセプトにあったんですよね。我々は、歌の上手い子は上手い、下手な子は下手でいいじゃんという思いをもってプロジェクトを始めていたんです。

 たとえば、うちには風祭朝陽というキャラクターがいますけど、彼女はピッチやテンポ、歌い出しもズレるし、ビブラートも基本はかからないというキャラなんです。それをどう調声していくかで個性がどんどん出てくるようになるわけです。調声せずともキレイな歌が作れるほかの音声合成ソフトとは、根本的な設計思想の違いがあるというか。

――なるほど。手間をかけずにキレイに歌わせるのか、手間はかかるけど自分にしか出せない個性を歌に込められるのかの違いがあると。

こーじD:そう、圧倒的な個性ですよね。人間はみんな性格が違う。それと同じように歌だってそれぞれに違いがあっていいわけですよ。それをちゃんと再現してくれるのがVoiSonaであり、「LAUGH DiAMOND」なんです。手間をかけずに優等生を使いたいというユーザーはほかのキャラクターやほかの音声合成ソフトを選べばいいわけですから。そこは好みも関係すると思います。

ラフダイP:そうだね。VoiSonaは手間がかかるし、癖もあるんだけど、「あなたにしか出せない音、歌が作れますよ」ということですね。細部にわたってかゆいところに手が届き、求めれば求めるだけ際限なくどこまでも突き詰めた歌を作れるのがVoiSonaと「LAUGH DiAMOND」の組み合わせならでは。そこがほかにはない大きな魅力だと思います。

――複数人でのデュエット曲やユニット曲が作りやすいという「LAUGH DiAMOND」シリーズの特性も、そこに関係がありそうですね。

ラフダイP:下手な歌をも許容した結果としての副産物ではありますけどね(笑)。技術的な話をすると、以前は同じ音階の音をAちゃんとBちゃんに歌わせると時おり、気持ちの悪い瞬間が生まれていたんです。要は音が混ざってCちゃんの声が生まれてしまっていたんです。そうなるとユニゾン曲が作れなくなってしまうので、ボカロPの方々は音が混ざらないようにそれぞれのピッチをわざとズラすような工夫をされていたと思います。でも「LAUGH DiAMOND」であればその必要はないんですよね。だって端からズレているので(笑)。

こーじD:ユニゾンさせるだけなら細かい調整はいらないです(笑)。

ラフダイP:そのうえで、それぞれの個性を出すように調声してあげればいいわけですから。機械的な歌声から、人が歌っているとしか思えないような歌声までを調声して作り上げていくこーじDの姿を見ていると、「みんな調声しようぜ!」と思いますよね(笑)。自分だけの創作活動をしたいクリエイターの方を受け止めるだけの懐の深さが「LAUGH DiAMOND」にはありますから。

こーじD:僕はいつも妄想しながら調声してるんですよ(笑)。レコーディングブースに(風祭)朝陽や(篁)響季に入ってもらって、僕がサウンドディレクターとして「ここはもう少しこう歌ってみてくれる?」みたいな会話をしている妄想を。で、狙った場所に装飾音符をつけると歌い方が変化するんですけど、AIを使っているので、その前後の表情も変わるんですよね。そこがおもしろい。そして「おぉ、それいいね!」とか言いながら、また調声を続けていく(笑)。

ラフダイP:そんなこーじDの姿を見ていると、「LAUGH DiAMOND」のライブラリを使ってもらうことが、レコーディングディレクターの育成につながるような気もするんですよね。こーじDがやっていることって、実際のレコーディングディレクターがやっていることと同じですから。そういったスキルを上げたい方にもぜひ使ってみてほしいです。

関連記事