“人の心を動かすAI”はいかにして生まれるかーー寿美菜子も登場したソニー「AI MEETUP 2」イベントレポ:後編
9月19日、ソニー・ミュージックエンタテインメントの主催により開かれたセミナー「AI MEETUP 2~AI キャラクター ビジネス最前線~」。第1部の様子はこちらでお伝えした。その第2部では「音声合成と自由対話AIが切り拓くAIキャラクタービジネス」と題されたクロストークが行われた。
登壇者は、音声合成やVR企画を担当するソニー・ミュージックコミュニケーションズの松平恒幸氏、キャラクターに特化した対話型人工知能サービスプロジェクト「PROJECT Samantha」を立ち上げたソニー・ミュージックエンタテインメントの井上敦史氏、同氏とともにプロジェクトを進めるemotivE代表取締役の結束雅雪氏の3名に加え、スペシャルゲストとしてソニー・ミュージックグループ、ミュージックレイン所属声優の寿美菜子氏を迎えた。
「普段は声優として活動していますが、こんなにかしこまったイベントに登壇するのは初めてなので緊張しています」と語る寿氏を迎えて、クロストークが始まった。最初の話題は「音声合成」だ。プレゼンターは「キャラクターと喋るコンテンツ」を作り続けてきた松平氏。「現代のコンテンツビジネスに、音声合成は必要不可欠だ」と語る。まず、合成した音声と、生身の人間ではどのような違いがあるのか?ということを示すために、寿氏がニュース原稿を読むデモンストレーションが行われた。流暢にきれいな発音で読み上げられた原稿は、しかし、実は寿氏の読み上げではなく、合成音声によるもの。原稿で顔を隠したまま読んでいる真似をした寿氏にも、笑顔がこぼれた。
デモンストレーションを踏まえて、松平氏はこのテクノロジーについて詳細に語った
「音声合成と聞くと、皆さん機械的な音声を想像されるかと思うんですけれど、実は格段の進化をしています。今このニュースを読み上げたのは、寿さんの声を収録して作った合成音声です。ソニーがフルチューンした、当代最強の合成音声を自負しています」
目の前で聞いていても違和感のない音声だったが、合成特有の欠点もあるという。
「声優さんはいろんなトーンの声を、いろんなニュアンスで出すことができますが、音声合成は『演技』はできません。今のデモも、ニュースキャスターのトーンを突き詰めて作った声なので、他のシチュエーションが必要な場合、都度チューンアップする必要があります」
寿氏によると、合成音声は収録にも特徴があるそうだ。
「普段のアニメなどの収録とは全く違って、感情を抑えて、しかしロボット的にはならないように、一定の感情をキープしながら読んでいきます。また、原稿の文章も支離滅裂で意味がないので、それを真顔で読んでいくというのが難しかったです。ただ、それが合成音声としてパッケージされるとスラスラと会話ができて驚きました」
音声合成の作成フローは「許諾取り」「音声収録」「チューニング」に分けられる。それぞれについて、松平氏は詳細に語った。
「最初にある『許諾取り』は非常に重要で、たとえば既存のキャラクターと合成音声のコラボレーションをする場合などには、まだ合成音声技術の面白さが一般に認知されていないところもあるので、声優さんの所属事務所やアニメの製作委員会と丁寧に打ち合わせて、許諾を取ります。次の『音声収録』では、音声合成専用の原稿で収録していきます。先ほど寿さんもおっしゃっていましたが、この台本に載っている言葉には全く『意味』がなく、一定のトーンを守って喋る必要があるので、声優さんによっては苦戦される方もいます。寿さんは収録がメチャンコ上手いので我々も驚きました。また、後半の『チューニング』はテクノロジーに寄った部分で、収録した声の特徴・イントネーションを日本語に当てはめていく微細な作業を繰り返していきます。これが終了すると、声のパッケージである『辞書』が完成して、これを実装先のアプリなどに応じてカスタマイズしていきます」
この“辞書”をキャラクター単位で作ることにより、さまざまなキャラクターにテキストを読み上げさせることが可能になる。アプリやソーシャルゲームなどに声を収録する際、更新するたびに都度声を新規収録するのは非現実的だが、合成音声ならば1度収録しておけばコンテンツの更新に応じてセリフを増やすことも自在だ。
そしてこの技術と親和性が高いのが、「自由対話AI」である。プレゼンターを井上敦史に交代し、トークは続いた。
ユーザの「意図」を理解するAI
井上氏はソニー・ミュージックコミュニケーションズで「人の心を動かすAI」をコンセプトとしたプロジェクト、「PROJECT Samantha」を企画。取り組んでいる施策について解説した。
「今年の3月にOIOIさんと、『AIに罵倒される春休み~おいおい、誰が望んでんだよ!~』を企画しました。2016年に『pixiv』上で期間限定公開した『罵倒少女:素子』という会話AIサービスを復活させて、OIOIさんとのプロジェクト用にチューニングした企画です」
解説すると、「罵倒少女」はカイカイキキ所属のクリエイター・mebae氏のオリジナルコンテンツであり、このキャラクターに会話AIテクノロジーを実装したサービスが、2016年にpixivで公開された『罵倒少女:素子』である。pixixの特設サイトにアクセスして、素子とテキストチャットで会話できる(罵倒される)コンテンツだ。素子は12日間公開されたが、26万人以上が参加し、734万人のユーザが罵倒されたという。
「『罵倒少女:素子』の製作時にライブラリが作られているので、今回OIOIさんとのコラボレーションもスムースに行なうことができました。このように、すでにファンの付いているAIアセットをライブラリ化して活用する事ができます」
このような「会話AI」において重要なのは、「AIがキャラクターの人格からブレることなく、ユーザと会話を続けること」で、これはとても難しい技術だという。井上氏に変わり、emotivE代表の結束氏が続けた。
「emotivEは独自の技術を開発しながら、対話AIをワンストップで供給する企画とエンジニアリングの会社です。対話AI開発の歴史は、ユーザが入力した文章に対して、AIがどのような文章を返すか、というところに苦労を重ねた歴史でした。単語の抽出やディープラーニングによって一定の受け答えはできるようになりますが、『PROJECT Samantha』ではこれに加えて”自由な対応”をさせたかったんです。ユーザの入力文に現れない『意図』をAIに理解させたいと思っていました」
たとえば、AIに「クーラーをつけて」と命令したら、AIは文字列を読み取ってエアコンを起動できるかもしれない。しかし人間は往々にして「この部屋暑い」など、状況を語る言葉で意図を伝えるため、AIにこれを理解させるのは難しい。PROJECT Samanthaでは意図を汲むことに注力し、言語処理技術とノウハウの合わせ技によってこれを実現した。
これまで音声合成と対話AIについてトークが続いたが、続いてこの技術を結集したプロダクトとして、九州電力が提供するスマートスピーカ『QuUn(キューン)』の紹介が行われた。QuUnは声優・雨宮天氏の声から作成した合成音声を用いており、声と話し方をユーザに合わせて選択できる。たとえば父親が話しかけると男性の声で、娘が話しかけると女性の声で応答を返す、というような設定も可能だ。また別途赤外線リモコンを接続することで、室内の家電をコントロールすることも可能だ。会場ではQuUnが寿氏の呼びかけに応じて今日の天気を答えるデモンストレーションも行われた。
現在は雨宮天氏の声のみが搭載されているが、井上氏は将来的にQuUnに既存キャラクターの合成音声を実装する予定があると語る。
「QuUnを家庭に置くことで『好きなキャラクターと一緒に生活する』、という体験を作っていきたいと思っています。九州電力さんとソニー・ミュージックで組んで、この冬にキャラクターAIボイスサービスを始めますので、ご期待ください」