アバター、街並み、果ては「群衆行動」までーー留まる所を知らない“生成AIの現在地” 『SIGGRAPH 2024』レポート

「カメラ制御」を可能とする次世代の動画生成AI

 Open AIの「Sora」をはじめとする動画生成AIが、テキスト入力に対して高画質な動画を生成するのは周知の通りである。しかしながら、現在の動画生成AIでは「カメラを左に振る」といった細かなカメラ制御に柔軟に対応できていない。これに対して、香港城市大学らの研究チームが、テキスト入力によるカメラ制御が可能な動画生成AI「Direct-a-Video」を発表した(※4)。

 Direct-a-Videoは、テキスト入力による生成動画の内容指定とは別に、カメラ制御情報の入力も可能となっている。たとえば右方向にカメラを旋回させたい場合は、「+0.3 X-pan」と入力する。X-panとはX軸つまりは水平に旋回、+0.3はX軸の正の方向つまりは右方向に0.3°旋回をそれぞれ意味する。さらに、動画内のキャラクターの動きも指定できる。

Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion

 Direct-a-Videoがカメラ制御に対応しているのは、このAIが大量の動画から学習する時に、動画の内容とは別にカメラの動きを分離して学習しているからである。

 同様にシンガポールの南洋理工大学らの研究チームも、カメラ制御可能な動画生成AI「MotionCtrl」を発表している(※5)。このAIも前出のDirect-a-Videoのように、カメラと動画内キャラクターの動きの制御が可能だ。さらに、マウスなどで描かれた複雑な動線からも動きに関するベクトル情報を抽出したうえで、カメラや動画内キャラクターを動かせる。

 MotionCtrlに関しては、実際にこのAIを簡単に操作できるデモページも用意されている(※6)。デモページに掲載されたサンプル画像を読み込んだ後、カメラの動きを指定すると視点が移動しながら画像が表示される。

 イタリアのトレント大学らの研究チームは、特定のビデオゲームのプレイをテキスト入力に即して再現するAI「PGM(Promptable Game Models:プロンプト入力可能なゲームモデル)」を発表した(※7)。このAIを使うと、例えばMinecraftの特定のゲーム環境に対して「階段を駆け登って、金色の柱に飛び移る」とテキスト入力すると、その入力内容に合致したプレイ動画が生成される。このAIは、ゲーム開発やゲームプレイ動画の制作において大いに役立つだろう。

3Dオブジェクト生成AIは衣服や複雑な形状の生成が可能に

 テキストや画像の入力から3Dオブジェクトを生成するAIの研究は、現在さかんに行われている。そうした研究の成果として中国の上海科技大学らの研究チームらは、テキスト入力からフォトリアルな衣服の3Dオブジェクトを生成するAI「DressCode」を発表した(※8)。このAIに対して、例えば「暗い黄色と青のストライプ」「丈の短いパンツ」とテキスト入力すると、入力内容に合致した3D衣服オブジェクトが生成される。

DressCode: Autoregressively Sewing and Generating Garments from TextGuidance

 DressCodeにはテキスト入力からスカートやTシャツといった衣服の基本的な分類と形状を理解したうえで衣服の3Dオブジェクトを生成する機能と、衣服の柄を生成する画像生成機能が実装されている。テキスト入力から衣服に関する情報を抽出するために、ChatGPTのような大規模言語モデルも活用されている。

 上海科技大学は、テキスト入力から複雑な形状の3Dオブジェクトを生成するAI「CLAY」も発表している(※9)。このAIの開発にあたっては、高品質な出力を実現するために、学習データの収集に労力を費やしたと語られている。具体的には、既存の3DオブジェクトデータセットであるShapeNetやObjaverseから高品質なデータを選抜したうえで、52万7,000個の3Dオブジェクトで構成された学習データを用意したのだという。

[SIGGRAPH 2024]CLAY: A Controllable Large-scale Generative Model for Creating High-quality 3D Assets

 なお、前出のDressCodeとCLAYはどちらも『SIGGRAPH 2024』の優秀論文に選出された(※10)。

 中国・清華大学らの研究チームは、1枚のキャラクター画像からそのキャラクターの3Dオブジェクトを生成するAI「CharacterGen」を発表した(※11)。このAIは、任意のキャラクター画像を入力すると、前後左右から見た4枚のマルチビュー画像セットを生成後、さらにこの画像セットを用いて3Dオブジェクトを生成する。

 実際にCharacterGenを試行できるデモページが用意されている(※12)。生成された3Dオブジェクトは、ゲーム開発などでよく利用される「Aポーズ」(左右の腕を斜め下に広げた姿勢)で出力される。この出力結果をポーズを自由に設定するためにボーン(関節)などを設定するツールであるAccuRIGに入力すれば、生成した3Dキャラクターのポーズをさまざまに変えられる。

関連記事