モナリザが歌い出す? Microsoftが画像からリアルタイムで顔の動きを生成するツール公開

 Microsoft Research Asiaは人物の静止画(あるいは絵画)と音声ファイルから、話したり歌ったりする顔をリアルタイムで生成するAI(人工知能)モデル「VASA-1」を発表した。

 VASA-1では既存の静止画から、顔の表情や頭の動きを生成したり、スピーチや歌に合わせて適切な唇の動きを生成したりすることができる。公式サイトに掲載されたリアルなスピーチの生成動画は、まさに実際の人物が話しているようだ。

 VASA-1はYouTubeの動画から抽出された、有名人の会話をもとにした「VoxCeleb2」のデータセットでトレーニングされている。トレーニングでは実際の人物が使用されているが、モナ・リザのような絵画でも動作しているのが興味深い。

 Microsoft Research AsiaはVASA-1の利点について、教育の公平性を高めたり、コミュニケーションに困難を抱える人のアクセシビリティを改善するために使用できるとしている。また、会話用のAIキャラクターでVASA-1が使用できる可能性にも触れている。

 一方で、同論文ではこの技術が悪用されることにより、ディープフェイク動画が簡単に生成されてしまう危険性についても指摘している。技術が適切に使用されると確信するまでは、オンラインデモやAPIなどを含め、関連製品をリリースしないと表明している。

 有名人や絵画が歌うデモは実に楽しいが、悪用することも簡単にできてしまいそうなVASA-1。技術の発展だけでなく、安全な使用方法に関するガイドラインの制定が必須となりそうだ。

〈Source〉Microsoft via Engadget
https://www.microsoft.com/en-us/research/project/vasa-1/
https://www.engadget.com/microsofts-ai-tool-can-turn-photos-into-realistic-videos-of-people-talking-and-singing-070052240.html

“AI闇市”も誕生 テイラー・スウィフトのフェイク画像事件を機に考える「現状と対策」

生成AIの登場によって、テキストを入力してプロンプトさえ指定すれば、だれでも画像を制作することが可能となった。こうした“画像制作…

関連記事