ジョン・レジェンド、Googleアシスタントの声に 音声合成の未来を柴那典が考察

 現地時間5月8日、米Googleが『Google I/O 2018』にて「Googleアシスタント」で6種類の音声を選択可能にすると発表した。その音声の一つにラインナップされているのが、アーティストのジョン・レジェンド。彼の声が天気などを教えてくれたり、バースデーソングを歌ってくれるという。そこで初音ミクなどボーカロイドにも詳しい、音楽評論家の柴那典氏に今後のAIアシスタントの進化について聞いた。

「『Google I/O』の発表からも分かる通り、Googleは今、AIをどんどん進化・開発しています。ジョン・レジェンドが採用されたのも、その一環と言えるでしょう。発表会ではGoogleアシスタントが、美容院や病院、飲食店に電話予約してくれるというデモもあったようです。今はあくまでスマホやスマートスピーカーに付随した機能ですが、今後は社会全体のコミュニケーションインフラとしてAIが普及する未来が近いのでは、と感じました。『ナイトライダー』のナイト2000や『スターウォーズ』のC3POなど、映画やエンタメ作品に登場するロボットやAIはそれぞれのキャラクターを感じさせる個性豊かな喋り方をする。今の段階ではGoogleアシスタントやSiri、AlexaなどのAIはそれぞれの端末特有のパーソナリティを感じさせず、統一された機械っぽい喋り方、というイメージが強い。Googleはそういう前提を壊そうとしている可能性はありますね」

 ジョン・レジェンドのアシスタントの声は、単に録音した声を使うのではなく、人間の典型的な話し方に近い音声をRAWオーディオで作り出す、WaveNetという機械学習技術から作られているという。柴氏はこれを踏まえ、ボーカロイドに使われている技術との相違点を指摘した。

「初音ミクなどボーカロイドの場合、基になる声優の方がたくさんの母音と子音の組み合わせを録音して、声の素子を組み合わせることで合成音声を生み出しています。少し前にはSEKAI NO OWARIのFukaseさんの声を使ったボーカロイドなども発売されましたね。ジョン・レジェンドのAIアシスタントは、それに比べ機械学習とニューラルネットワークのテクノロジーを活用することで、声の素子に頼らずより自然な音声合成を実現しているようです」

 当然ながら今回発表されたジョン・レジェンドの音声は、英語のみの対応だ。日本でも取り入れられていく可能性はあるのだろうか。

「ジョン・レジェンドを皮切りに、5年後、10年後には様々な著名人、俳優、セレブリティが声を提供していることも十分に考えられますし、もっと普及していく気がしています。自分が好きな俳優やミュージシャン、アイドルの声が朝起こしてくれて、天気を教えてくれて、簡単な会話や調べ物をしてくれるようになることが当たり前になったら、ファンにとっては嬉しいものになるのかなと思います。WaveNet自体は日本語にも対応しているので、日本語でもぜひ実現してほしいですし、日本には声優やバーチャルユーチューバーの巨大な文化圏があるので、大きな可能性を感じます」

関連記事