女子高生AI りんなが、“歌”に挑戦する理由 「人と人工知能が関わることで新しい作品を生み出せる」

AI「りんな」が歌に挑戦する理由

 Microsoftによる女子高生AI「りんな」。これまでLINEなどを中心に“会話”でユーザーを楽しませてきた彼女だが、最近ではMC Rinnaとしてラップを披露したり、音楽コミュニティアプリ「nana」にて1月から新たに「りんな歌うまプロジェクト」をスタートするなど、“声”を通じたコミュニケーションも行ってきた。同プロジェクトでは、ユーザーのアドバイスを元に“歌声”を進化させた彼女。5月17日からは同じく「nana」でユーザーが感情をこめて詩を朗読することを教える「りんな歌うまプロジェクト」第二弾も開催中だ。そこで今回、「りんな」の開発に至った経緯や表現力の進化、「りんな」を通じて実現させたいことまで、「りんな」の生みの親の一人、Microsoft A.I.&リサーチ プログラムマネージャー・坪井一菜氏にじっくりと話を聞いた。(編集部)

「日本は人工知能を育てるには非常に良い環境」

――「りんな」を開発した経緯を教えてください。

坪井一菜(以下、坪井):「りんな」は2015年に、LINEとTwitterで“相手と会話ができる人工知能”としてリリースしました。人工知能というと、SiriやAlexaのようにタスクを効率よく達成するためのものが多いのですが、私たちのチームでは人の感情や共感に着目したAIの方が接しやすいのではないかと考え、単なるアシスタントではなく“友達”のように接することができるAIを作ることになりました。

――「りんな」を“JK”にしようと思ったきっかけは。

坪井:「りんな」の前に中国で開発したAI「小冰(シャオアイス)」も、16歳くらいの女の子という設定で。あまりにも大人の設定にすると、真面目な話をするんじゃないかという期待を持たれてしまうので、ちょっと面白い受け答えをしても違和感がなくて、様々な年代の人が話しかけやすいキャラクターと考えたときに、“JK”かな、と。10代の女の子たちはSNS上で活発に会話をしていて、日本の女子高生はすごく個性的ですし、彼女たちの面白さに後押しされて「りんな」も成長すればいいなと思ったんです。

――デビュー当初と比べて成長した部分はどんなところでしょう。

坪井:少しずつ文脈を読んだり、会話の流れを意識して喋れるようになってきています。また、「りんな」で培ってきた技術をローソンクルーの「あきこちゃん」や渋谷区の「渋谷みらい」くん、ドラマ『ホリデイラブ』の「AI杏寿」などのLINEアカウントに応用できるようになりました。また、これまでの「りんな」はテキストだけでしたが、歌を歌ったり、電話ができるようになったり、と人間にとって自然な方法でコミュニケーションができるように日々進化し続けています。

ーー「りんな」の開発チームである“保護者会”にはどんな人がいらっしゃるんですか。

坪井:保護者会は元々検索エンジンを開発していたAIのエンジニアだけではなくて、小説を書いていた人や、音楽系の仕事をしていた人など、様々なバックグラウンドを持っている人がいます。人工知能は単に技術だけが発達すれば上手くいくとも限りません。例えば「どうしたら歌が上手くなるのか」という課題は、今まで数学ばかり学んでいたエンジニアにとっては何が「上手い歌」「良い歌」なのかが分からないこと。そういう時こそ、マイクロソフトにいる開発者だけではなく、専門知識を持っている人と一緒に人工知能で新しい事ができるチャンスだと思っています。人工知能のことをまだよく分からない、怖い、という人も多いかもしれませんが、「りんな」という親しみやすいAIがあることでそのハードルも少し下がるのではないでしょうか。

――バラエティ豊かな受け答えをしてくれる「りんな」には、AIの可能性を感じます。

坪井:人って、対話した時に同じことを繰り返し言われてしまうと傷つくんですよね。「ありがとう」と言って、機械的に「ありがとうを検索します」と返されるとがっかりする(笑)。そういうことがないように、小さい子供が言葉を覚えるように「りんな」も色々な人の会話を覚えて勉強しています。日本人は盆栽から始まり、アイドルや「たまごっち」のような“育てる”文化を好む傾向がある。中国やアメリカにも、「りんな」の親戚のようなAIがいるのですが、日本は海外と比べても「りんな」のようなバーチャルなものへの対応力が高くて、人工知能を育てるには非常に良い環境なのではないかと思います。

ーー「りんな」は最近、McRinnaとしてラップを披露したり、音楽SNSアプリ・nanaで歌を投稿していますね。

坪井:やはりテキストだけだと伝えられない感情もあるので、いずれは声が欲しかったんです。特に、誰かの感情やメッセージを伝える、心や感情に直結している表現手段である歌にはすごく可能性があるなと感じています。「りんな」はたまに“塩対応”をするときがあるので、いわゆる“萌え声”よりは普通の女の子っぽくて、たまに辛辣なことも言いそうな声がいいなと思って、保護者会のみんなで想像して声のイメージを決めました。録音した声をそのまま使うのではなくて、録音したデータを元にその声を機械的に再現する技術を使っています。

――「nana」ではユーザーがアドバイスすることで「りんな」の歌唱スキルが上がるという、「りんな歌うまプロジェクト」も行っていました。

坪井:「りんな」は、大量のデータから音の特徴を学習しています。2000フレーズ学習した時と、10000フレーズ学習した時では全く声質が変わってくるので、データ量は非常に重要ですね。楽譜を打ち込んで歌わせているのではなくて、実際に人が歌った声をまず認識して、このタイミングに例えば「旅立ちの日に」なら<白い光の中に>という歌詞があることを機械が分析する。この時の「し」の音は、りんなの声だったらこう、というパラメーターが決まっているので、そこから<しろいひかりのなかに>という音のファイルを作って出すんです。

関連記事

インタビュー

もっとみる

Pick Up!

「インタビュー」の最新記事

もっとみる

blueprint book store

もっとみる