アーティストの音声ディープフェイクと二次創作の未来 エミネムの声を再現したディープフェイクから考える技術と倫理
AIに深層学習をさせ、高度な画像生成技術を駆使して合成された「ニセ」の動画や画像=ディープフェイク。人工知能を使い、自然に画像合成が行われているものもあり、なかにはニセモノと見破ることが難しいものも存在している。
そんなディープフェイクは動画や画像だけでなく、近年は音声や声の生成に注目が集まっている。音声ディープフェイクが実際にイギリスで詐欺に使用された事件は記憶に新しく、技術の進化とともに人を騙す目的で使用されることが懸念されている。
もちろんそのような技術の使い方は言語道断であるが、現在米国などの音楽業界で議論されているのが、ディープフェイクを使用した二次創作だ。この記事では、アーティストの声を再現した「ディープフェイク二次創作」の未来について考えたい。
今年の5月にとあるディープフェイク動画が話題になった。30Hertz氏が制作した「もしエミネムが2021年に"My Name Is"をラップしたら」というタイトルのディープフェイク動画だ。エミネムの初のヒット曲 「My Name Is」(1999年)のビートの上に、現代風の歌詞をラップするエミネムのディープフェイクをミックスした二次創作となっている。驚くことに、若きころのエミネムの声だけではなく、ラップのフロウも完全に再現しているのだ。リリックも1999年のオリジナルとは違い、「ビリー・アイリッシュのように髪を緑に染めようか?」や、「ブチ切れてドナルド・トランプのヅラを剥がした」という近年の話題になっており、あまりエミネムを聴いたことがない人が一聴したら、本人が再録したと勘違いしてもおかしくないクオリティとなっている。
エミネムは時代によってラップのデリバリーやフロウを変えてきたラッパーなのもあり、近年のエミネムのラップを好んでいない古参ファンもいる。そのため、コメント欄では「昔のスタイルで新しい曲をリリースしてほしいってこういうことだよ」と、ディープフェイクのクオリティを絶賛している人も多く見受けられる。
これらのエミネムのディープフェイクを作っている30Hertz氏は、Tacotron 2とLJ Speechを使用しており、「実際にエミネムにそっくりな声を生成するのに10ヶ月かかったし、AIの学習に使用できるエミネムのアカペラ素材が70分ほどしかなかったから、再現するのに苦労した」と語っている。AIの学習に使用できるアカペラ素材があればあるほど、ディープフェイクのクオリティは高くなるため、インターネットに大量にアップされている政治家の演説などはディープフェイクの素材として非常に有効である。何十時間もの演説音声から生成されたディープフェイクは、本物と聞き分けができないほどのクオリティになっており、ノトーリアス・B.I.G.のラップをオバマ元大統領の声で読み上げたディープフェイクなども制作されている。
このような動画は、いわゆる同人誌のような二次創作のエンタテインメントとして、ファンの間では楽しまれているが、自身の声が使用されていることに危機感を覚えるアーティストも多い。最もビジネス的にも成功したと言えるラッパー、Jay-Zもその一人だ。Vocal SynthesisのYouTubeアカウントでは、Jay-Zのディープフェイクが、シェイクスピア「ハムレット」の独白をしたり、ビリー・ジョエルの「We Didn’t Start the Fire」のリリックを読み上げたり、Jay-Zの声を使用した動画が多数公開されている。Jay-Zと彼のレーベルRoc Nationは、それらの動画に著作権侵害の申し立てをしたが、「申し立て内容が不完全である」という理由で、動画は再アップされている。
Jay-ZとRoc Nationは、「Jay-Zの声を無許可でAIに学習させており、違法だ」と著作権侵害を申し立てたが、専門家は「法律的には問題ない」と考えているようだ。デジタルミュージック・コンサルティング会社One Houseのマネージング・ディレクターであり、メジャー・レーベルの技術エグゼクティブであったJim Griffin氏は、「作品そのものではなく、ボーカル・スタイル自体には、著作権はない。なのでこのディープフェイクも何も問題はない」と語っている。いくら特徴的な声で、その声で生計を立てているとしても、今のところ「声」そのものには著作権がないのだ。
しかし、エンタテインメント業界で問題視をしている人が増えているのも事実である。ディープフェイクの技術が発展し、さらに聞き分けがつかなくなった場合、将来的にレーベルや他人が、アーティスト本人の許可なく「feat. Jay-Z」といったコラボ楽曲を発表してしまうことも可能になってしまう。The Hollywood Reporterによると、エンタテインメント業界では、ディープフェイク対策のため、パブリシティ権によって定められている法律を更新しようという動きもあるようだ。
逆にディープフェイクを利用したデジタルの「自分」を販売しているアーティストもいる。アーティストのHolly Herndonは、自身の声を生成して、誰でも作品を作ることができるツール「Holly+」を公開している。「Holly+」を使用して制作された作品は、プロジェクトのDAOに提出して認められた場合、制作者が50%の収益を受けることができるようだ。Holly Herndonは「ボーカルのディープフェイクは無くならない。アーティストを守ることと、新しい技術で実験していくこと。これらのバランスを見つけないといけない。だからコミュニティとして声のオーナーシップを持つという実験を実施してみた」と「Holly+」について語っている。また、トラヴィス・スコットのディープフェイク、通称「トラヴィス・ボット」が作った楽曲も話題になっており、自らディープフェイクの世界に参入するアーティストもいる。いわゆる自身の“ボーカロイド化”とも言えるかもしれない。
Holly Herndonが言うように、アーティストの意向を守りつつ、新しい技術を試していくバランスが重要なのだろう。米国ではDEEPFAKES(略:The Defending Each and Every Person from False Appearances by Keeping Exploitation Subject)という法案が2020年に可決している。こちらは、ディープフェイクで生成された作品には、除去できないウォーターマークをつけること、さらにテキストでディープフェイクであることを明記することを義務付ける法案である。しかし、そもそも自身の専売特許である声が勝手に使われることを嫌がるシンガーや声優がいるのも事実だ。エミネムのディープフェイクを作っている30 Hertz氏は、「私が作った二次創作は、決してパロディの域を出るべきではなく、モノマネ芸人の替え歌パロディと同じような扱いを受けるべき」と語っている。しかしモノマネ芸人はいくら似ていても、「本人」と同じにはならないが、ディープフェイクは本人かどうかの判別が人間には不可能になりうる技術である。
技術が発展していけば、アーティストが亡くなった後に、ディープフェイク技術によって「亡くなったアーティストの存在しない作品」を制作することも可能になる。また、有名キャラクターの声優が亡くなった後に、二代目声優が担当するのではなく、ディープフェイクが後を継ぐのが一般的になるかもしれない。アーティストに関しては、自身が0から作る「表現作品」という要素が強いので、前者と後者だとまた感覚も違ってくるだろう。
自身の声を完全に再現された作品が作られることをポジティブなものとして捉えるのか、ネガティブなものとして捉えるのか。サンプリングという手法が広まったときのように、アーティスト自身が表明する時代が近いうちにくる可能性もあるだろう。近年、アーティストが生前にお蔵入りさせた作品が、亡くなった後に遺作としてリリースされる事例が増えているが、アンダーソン・パークが「私がこの世を去ったら、未公開曲をリリースしないでほしい。その楽曲たちはただのデモで、世に公開するために制作したものではない」と腕にタトゥーを彫ったように、ディープフェイクに関してもこのような表明が必要になってくるかもしれない。
(画像=EminemMusicのYouTubeより)
(Source)
https://www.billboard.com/articles/columns/hip-hop/9596987/deepfake-music-imitations-history/
https://www.forbes.com/sites/forbestechcouncil/2021/05/10/analyzing-the-rise-of-deepfake-voice-technology/?sh=499784236915
https://cointelegraph.com/news/musician-sells-rights-to-deepfake-her-voice-using-nfts
https://holly.mirror.xyz/54ds2IiOnvthjGFkokFCoaI4EabytH9xjAYy1irHy94