「VOCALOID β-STUDIO」×「VoiSona」開発・研究者対談 AI歌声合成ソフトが発展した先に求められる“人間性”
人工知能(AI)による技術革新が目覚ましい昨今。歌声合成ソフトにおいても、AI技術を活用したソフトウェアの発展が日々行われている。
その中でも、歌声合成ソフトの象徴とも言える『VOCALOID』を発明したヤマハ株式会社は「VOCALOID:AI」を搭載した『VOCALOID6』をリリースし、『CeVIO AI』に技術提供を行っている株式会社テクノスピーチは新しく『VoiSona』というサービスをスタートした。
リアルサウンドでは、ヤマハ株式会社が今年新たにスタートしたプロジェクト「VOCALOID β-STUDIO」のキャプテンを務める才野慶二郎氏と、株式会社テクノスピーチの代表取締役である大浦圭一郎氏の対談を企画。AIによる音声/歌声合成の現在地と未来について話を聞いた。(編集部)
生成AIはカルチャーをどう変えるか?
音楽を作る・聴くことにもたらす作用
文章や画像のみならず、楽曲や歌声、映像を生み出すこともできる生成AI。音楽シーンにおいてはその活用方法や権利に関する問題など、さ…
両社が開発するAI音声合成ソフトの設計思想
ーーまずはお二人が現在従事している業務についてご紹介いただけますでしょうか。
才野慶二郎(以下、才野):私はヤマハ株式会社の研究開発統括部という部署で、新しい技術の研究開発に携わっています。これまではクローズドな環境で基礎技術の研究・開発を行ってきたのですが、先日発表した「VOCALOID β-STUDIO」は、AI技術の注目が高まって社会が変革の時期にあるなかで、音楽の分野においてその技術をどういう切り口で利用するのが理想的なのか、我々が会社として「新しい使い方」を定義するのではなく、ユーザーの皆さんと一緒に模索しながら開発を進めるために立ち上げたオープンβプロジェクトになります。その施策として、より多くの人に歌声合成技術を使ってほしいという気持ちもあって、研究段階のAI歌声合成プラグイン「VX-β」を無償で配布しているのですが、ありがたいことに我々が想定した以上の反響をSNSなどでいただいています。
大浦圭一郎(以下、大浦):私もぜひ使ってみたいのですが、クリエイターでなくても応募したら使わせてもらえるのですか?
才野:抽選制になるので、そこは他の応募者の皆さんと同じプロセスになります(笑)。
大浦:わかりました(笑)。私はAI音声合成やAI歌声合成といった音声関連技術を扱う大学発ベンチャーとして立ち上げた、テクノスピーチという会社の代表をしています。一般向けの音声創作ソフトの分野では、「音楽的同位体 可不(KAFU)」さんや「夢ノ結唱 BanG Dream! AI Singing Synthesizer」さんなどで知られている「CeVIO AI」さんにも関わっているのですが、こちらは技術提供という役回りでのお付き合いになりますので、ここでは最近リリースした自社製品「VoiSona」についてお話させていただきます。
「VoiSona」は2022年9月に正式リリースしたばかりのプロダクトで、パソコンをお持ちの方であれば手軽に無料で歌声合成をお試しいただけるソフトになります。ボイスライブラリという、いろいろなアーティストさんの声をAI学習によって合成した「声の元」のようなものを増やすことができる設計になっていて、現在はサブスクリプションの形で提供していますが、この年末には一部のボイスライブラリについて買い切りプランも用意しており、より多くのユーザーさんに使っていただければと考えています。今月には1周年を記念して、テキスト音声合成ソフト「VoiSona Talk」もリリースしました。おかげさまで想定していたより莫大な数のユーザーさんに使っていただいています。
ーー「VoiSona」では、マイキさんの声を元にした「MYK-IV」や、ゴールデンボンバーの鬼龍院翔さんの声をモデルにした「機流音」、SILENT SIRENのすぅさんをモデルにした「AiSuu」など、アーティストの歌声をベースにしたボイスライブラリを多く開発しています。これはどのような設計思想のもと展開されているのでしょうか。
大浦:「VoiSona」はAIと人間の共存共栄をテーマにしたプロジェクトで、AI音声を用いたクリエイターさんによる創作活動と、声を提供していただくアーティストさんの活動、その両方が相互に良い影響をもたらし合いながら継続していく世界を作りたい、というのが根本的な思想としてあります。クリエイターさんに「このアーティストの合成音声にはこういう曲が合うんじゃないか」という視点で楽曲を作っていただいたり、もしくは合成音声が使われた楽曲を聴いたときに、その楽曲を制作したクリエイターさんはもちろんのこと、元となった声を提供したアーティストさんにも興味を持っていただくような、歌声合成ソフトをきっかけにクリエイターさんとアーティストさんの両方を好きになってもらえるような形が理想としてあるんですね。実際に鬼龍院さんも「機流音」を大変喜んでくださっていて、ご本人と音声合成ソフトのデュエット曲をご自身のYouTubeにアップしてくださったんです。すごくありがたいですね。
才野:有名な方の声を元にした製品の開発はすごく難しいことで、少しでも声が違うと否定的な意見が上がりがちですし、有名な人であればあるほどそういう声も大きくなりやすいのですが、テクノスピーチさんはそれをしっかりと製品にされたうえで、その人そのものでもあるようでいて合成らしい楽しさもある、という絶妙なバランス感を実現されているので、いつも恐れ入ったという気持ちでいます。
大浦:私もヤマハさんの取り組みにはいつも注目していますし、「VOCALOID β-STUDIO」に関しても、AIのサジェスションに対して人間がどこまでコントロールするのが良い塩梅なのかを探るプロジェクトでもあると感じていて。そこは弊社も興味があるところですし、いずれはそういったVOCALOIDの製品も登場すると思うので、どんなバランス感になるか楽しみですね。なのでお互い敵対視はしていないです(笑)。こういう技術を広めていく意味ではヤマハさんは大先輩ですし、お互いこの分野や業界を盛り上げていこうという気持ちは一緒だと思うので。
才野:それは本当にその通りですね。
ーー才野さんが今取り組んでいる「VOCALOID β-STUDIO」の設計思想についてもお伺いしたいです。
才野:まず、弊社のVOCALOIDというソフトウェアは20年以上の歴史があるのですが、当初から一貫しているのは、自分の音楽を表現したいと考えている人のためのものであることなんですね。バージョンによって機能の変遷はありますが、音楽を作る人が自分の表現をそこに入れ込めることが重要なポイントだと考えていて。極端な話、ボタン1つでAIシンガーがすべて歌ってくれるようになると、クリエイターの出る幕がなくなってしまうので、クリエイターが自分の音楽表現を成すために、その時代においてどんな機能を持っているのがいいか。今現在のVOCALOIDは人間が楽曲を作っているわけですが、そこにどこまでAIの要素を自然に入れ込むことができるのか。それが「VOCALOID β-STUDIO」で研究しているテーマの1つになります。
また「VOCALOID β-STUDIO」では、音楽クリエイターと呼ばれる人たちの裾野をさらに広げていきたいと考えています。これまでのVOCALOIDは、主にアマチュアのDTMerやいわゆるボカロPと呼ばれる方たちに使っていただいていますが、引き続きそういった方たちに新しい音楽表現をもたらしたい思いもある一方で、これまでVOCALOIDを用いたことのない職業作曲家をはじめとした幅広い方たちにも、歌声合成ソフトを広げていきたい気持ちが強いですね。