2023.06.05 07:00

異次元の性能を持つAIボイスチェンジャーを前に、ディープフェイク時代に備える

　「RVC（Retrieval-based Voice Changer：情報検索ベース変声）」は、AIによって声質変換を行うオープンソースのボイスチェンジャーだ。ボイスサンプルを学習して声質変換モデルを生成するもので、4月初旬からSNSで話題となり、WEBブラウザでの動作や日本語UIの実装など、ユーザーによる多彩な拡張が施されている。

　RVCには自分の声を学習させることはもちろん、すでに学習済みのデータを配布するユーザーもおり、こうしたデータを購入してボイスチェンジを楽しむこともできる。類似の技術はいくつかあるが優秀で、コンピュータへの負荷も比較的軽いことから人気を博している。このソフトはもともと中国製で、ユーザーインタフェースが全て中国語だったのがネックなのだが、これも「RVC WebUI」というWEBブラウザ版インターフェイスの日本語化により解消された。

　RVCの特徴はもう一つあり、「低遅延」だということ。自身の発話した音を瞬時に学習済みの声に変換してくれるので、リアルタイムのボイスチェンジが可能になる。非常に高精度な音声変換と学習速度がウリであり、さらには「異なる音声のマージ（融合）」までできてしまう。この特性が評価され、数々のVTuberがYouTubeにRVCのレビューを掲載している。

【超技術】ピーナッツくんの声で通話したら気づく？

　こうしたソフトが牧歌的に使われている状況は楽しく見られるものの、悪用が心配でもある。低予算でハイクラスのボイスチェンジが可能となる一方で、「フェイクスピーチ」の生成が容易になるという事実は無視できない。

　フェイクスピーチは、ある特定の人が言ったかのように偽造された音声を指す。この技術は「ディープフェイク」の一種で、ここでいうディープフェイクとは、AI技術を用いて偽造された映像や音声のことだ。一言で言えば、ディープフェイクは人工知能が人間の顔や声をまねる技術である。以前に別の記事でも紹介したが、ボイスチェンジャーを悪用した詐欺やなりすましなどの犯罪がすでに報告されており、この技術の発展はその可能性をさらに高めてしまうだろう。今年、中国・福建省ではAIによって顔と声を生成したなりすまし詐欺により、430万元（約8400万円）をだまし取られたという事件も発生している。

イーロン・マスクとの会話も納税通知もAI電話が実現！　「電話×AI」の好相性がもたらす“恩恵と危険”

ChatGPTの発表から本日に至るまで、AIのニュースがたびたびSNSを賑わせている。今回は特に「声」や「会話」にまつわるAIサ…

　ディープフェイクやその他の画像・音声合成技術の悪用については世界中で議論されており、すでに一部の地域では法律による規制が行われている。たとえば、アメリカのカリフォルニア州では2019年にディープフェイクに関連する法案として、選挙の60日前に候補者について偽の音声や映像を公開することを禁止するAB730法案が制定されている。

　また、EUでもディープフェイクに関する議論が進んでいる。2020年に公開されたEUの人工知能戦略白書では、ディープフェイクによる欺瞞性やマニピュレーションに対処するための規制策が必要とされている。しかし、これらの対策はまだ始まったばかりで、現状では、法的・技術的な対策が追いついていない。