メタバースやアニメに活用される最新グラフィックAI事情 『SIGGRAPH 2023』&『NVIDIA AI DAY』2つのイベントから読み解く

2つのイベントから見る最新グラフィックAI事情

 画像生成技術の発達やディープフェイクの増加に見られるように、AIがグラフィック技術に大きな影響を与えていることは周知の通りだ。テクノロジー企業による開発競争の激化は留まるところを知らず、次々に新たなニュースが発表されている。

 2023年7月末と2023年8月初旬において、最新のグラフィックAIを展望できる2つのイベントが開催された。本稿ではこれらのイベントで発表された注目すべきグラフィックAIを紹介することを通して、この先にAIがグラフィック技術にどのような影響を与えるかを読み解いていきたい。

トレンドは「メタバースへの応用」 アバター生成に活躍する技術が多数発表された『SIGGRAPH 2023』

 2023年8月6日から10日にかけて、アメリカ・ロサンゼルスにおいてグラフィック技術の世界的カンファレンスである『SIGGRAPH 2023』が開催された。今回で50周年を迎えた同カンファレンスは、歴史的に重要なグラフィック技術が発表されてきたイベントとして知られている。そんな『SIGGRAPH 2023』においても、近年はグラフィックAIに関する発表が増加傾向にある。
〈参考:『SIGGRAPH 2023』公式WEBサイト

 グラフィックAIのトレンドのひとつに「メタバースへの応用」を想定したものがあり、『SIGGRAPH 2023』でもそうした技術が多数発表された。

 例えば中国・上海科技大学らの研究チームは、顔の特徴をテキスト入力するとその入力内容に合致した3Dの顔を出力するAIモデル『DreamFace』を発表した。人名の入力も可能であり、たとえばハリウッド俳優の「モーガン・フリーマン」と入力すると同俳優のフォトリアルな顔の3Dモデルが出力される。この技術は、明らかにメタバースのアバター生成への応用を意識しており、実際に同チームは『DreamFace』公式WEBサイト上で「メタバース向けの使いやすく、正確な3Dモデル制作ツールが必要だ」と述べている。
〈出典:DreamFace: Progressive Generation of Animatable 3D Faces Under Text Guidance

[SIGGRAPH 2023] DreamFace: Progressive Generation of Animatable 3D Faces under Text Guidance

 ミュンヘン工科大学らの研究チームは、フォトリアルな3Dの顔を用意したうえでテキストを入力すると、用意した顔の特徴や表情を変えられるAIモデル『ClipFace』を発表した。この技術は表情を変化させられるだけではなく、表情が変化する推移を可視化できるモーフィングに対応しているのがユニークなところ。たとえば「悲しみ」の表情から「喜び」のそれへの変化を表現できる。また、ゾンビから人狼といった顔の特徴が大きく変化するようなものも表現可能だ。
〈出典:ClipFace: Text-guided Editing of Textured 3D Morphable Models

ClipFace: Text-guided Editing of Textured 3D Morphable Models (SIGGRAPH'23)

 フォトリアルな人物に関する動画を生成するサービスを提供するSynthesiaらの研究チームは、任意の人物を正面や側面といった複数の視点からカメラ撮影して人物に関する素材画像を採取すると、さまざまに動作する人物に関するフォトリアルな3Dオブジェクトを生成できるAIモデル「HumanRF」を発表した。同モデルを使えば、素材画像撮影時には見られなかった動作も生成できる。未撮影の動作を生成できるのは、同モデルが事前にさまざまな動作について学習しているからである。同モデルの学習には、人種や性別が異なる8人の男女のさまざまな動作を160台のカメラを使って撮影したデータセット「ActorsHQ」が使われた。同モデルには、映画のエキストラとなる人物を正面や側面から撮影後、そのエキストラの動作を生成して撮影費用と撮影時間を削減する、といった活用事例が想定される。もっとも、こうした事例を実行するには、撮影する人物の肖像権に関する何らかの契約が必要となるだろう。
〈出典:HumanRF: High-Fidelity Neural Radiance Fields for Humans in Motion

HumanRF | Full Body Multi-View Video Capture & Playback

 以上のグラフィックAIは、いずれもフォトリアルなメタバース向けの3Dモデル生成に応用可能な技術である。そして、適切な変更を加えれば、アニメ調のモデル生成にも活用できるだろう。

注目されるモーション生成

 グラフィックAIの研究分野として注目されているのが、「モーション生成」である。一般に、アニメーションやゲームにおけるモーションの制作には、複雑な工程を要する。そのため、モーションキャプチャーなどを用いて人間の動きをデータ化し、それをアバターに当てはめる手法が人気だ。しかし、こうしたモーション制作にグラフィックAIを活用することで、工程を短縮したりコストを削減したりする研究が進んでいる。

 中国・山東大学らの研究チームは、短いモーションを入力すると、その入力から多様なモーションを生成するAIモデル『GenMM』を発表した。このAIの応用範囲は、3Dモデルの「骨格」(※)が非常に複雑かつ巨大なものも含まれる。2つの短いモーションを入力すると、その2つを合成したモーションを生成することも可能だ。任意の歩行モーションを与えると、複雑な軌道の歩行モーションを生成できたりもする。
〈出典:Example-based Motion Synthesis via Generative Motion Matching

【※グラフィック技術の世界では「スケルトン」。間接の役割を果たす「ジョイント」とその関節同士を繋ぐ「ボーン」からなる】

GenMM_SIGGRAPH2023

 アメリカ・クレムソン大学らの研究チームは、ふたつのモーションを合成可能なAIモデルを発表した。このAIを活用すれば、たとえば「走る」モーションと「パンチする」モーションを組み合わせて、「走りながらパンチする」モーションを生成できる。もっとも「走りながらジャグリングする」のような実現困難なモーションを生成した場合、生成されたモーションが破綻してしまうという課題がある。この課題に関しては、実現困難なモーションかどうかを判定する処理を実装することで解決すると見込まれている。
〈出典:Composite Motion Learning with Task Control

[SIGGRAPH 2023] Composite Motion Learning with Task Control

 アメリカのジョージ・メイソン大学の研究チームは、簡単な3Dキャラクターと3Dシーンを用意したうえで、簡単なシナリオを入力するとそのシナリオに沿った3Dアニメーションを生成するAIモデルを発表した。このAIを使えば、たとえば「レストランを訪れた2名の客に接客をするウェイター」というシーンを用意したうえで、「ワインをサーブするウェイター」というシナリオを与えると、そのシナリオに沿ったアニメーションが生成される。この技術を応用すれば、簡単なアニメーションを生成するオーサリングツールを開発できるだろう。
〈出典:Generating Activity Snippets by Learning Human-Scene Interactions

Generating Activity Snippets by Learning Human-Scene Interactions - SIGGRAPH 2023

 以上のようなモーション生成技術が普及すれば、アニメーションを制作するスキルがない人でもそれが可能になるかもしれない。

関連記事

インタビュー

もっとみる

Pick Up!

「コラム」の最新記事

もっとみる

blueprint book store

もっとみる