アバター、街並み、果ては「群衆行動」までーー留まる所を知らない“生成AIの現在地”　『SIGGRAPH 2024』レポート

文＝吉本幸記

2024.08.30 07:00

「カメラ制御」を可能とする次世代の動画生成AI

　Open AIの「Sora」をはじめとする動画生成AIが、テキスト入力に対して高画質な動画を生成するのは周知の通りである。しかしながら、現在の動画生成AIでは「カメラを左に振る」といった細かなカメラ制御に柔軟に対応できていない。これに対して、香港城市大学らの研究チームが、テキスト入力によるカメラ制御が可能な動画生成AI「Direct-a-Video」を発表した（※4）。

　Direct-a-Videoは、テキスト入力による生成動画の内容指定とは別に、カメラ制御情報の入力も可能となっている。たとえば右方向にカメラを旋回させたい場合は、「+0.3 X-pan」と入力する。X-panとはX軸つまりは水平に旋回、+0.3はX軸の正の方向つまりは右方向に0.3°旋回をそれぞれ意味する。さらに、動画内のキャラクターの動きも指定できる。

Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion

　Direct-a-Videoがカメラ制御に対応しているのは、このAIが大量の動画から学習する時に、動画の内容とは別にカメラの動きを分離して学習しているからである。

　同様にシンガポールの南洋理工大学らの研究チームも、カメラ制御可能な動画生成AI「MotionCtrl」を発表している（※5）。このAIも前出のDirect-a-Videoのように、カメラと動画内キャラクターの動きの制御が可能だ。さらに、マウスなどで描かれた複雑な動線からも動きに関するベクトル情報を抽出したうえで、カメラや動画内キャラクターを動かせる。

　MotionCtrlに関しては、実際にこのAIを簡単に操作できるデモページも用意されている（※6）。デモページに掲載されたサンプル画像を読み込んだ後、カメラの動きを指定すると視点が移動しながら画像が表示される。

　イタリアのトレント大学らの研究チームは、特定のビデオゲームのプレイをテキスト入力に即して再現するAI「PGM（Promptable Game Models：プロンプト入力可能なゲームモデル）」を発表した（※7）。このAIを使うと、例えばMinecraftの特定のゲーム環境に対して「階段を駆け登って、金色の柱に飛び移る」とテキスト入力すると、その入力内容に合致したプレイ動画が生成される。このAIは、ゲーム開発やゲームプレイ動画の制作において大いに役立つだろう。

3Dオブジェクト生成AIは衣服や複雑な形状の生成が可能に

　テキストや画像の入力から3Dオブジェクトを生成するAIの研究は、現在さかんに行われている。そうした研究の成果として中国の上海科技大学らの研究チームらは、テキスト入力からフォトリアルな衣服の3Dオブジェクトを生成するAI「DressCode」を発表した（※8）。このAIに対して、例えば「暗い黄色と青のストライプ」「丈の短いパンツ」とテキスト入力すると、入力内容に合致した3D衣服オブジェクトが生成される。

DressCode: Autoregressively Sewing and Generating Garments from TextGuidance

　DressCodeにはテキスト入力からスカートやTシャツといった衣服の基本的な分類と形状を理解したうえで衣服の3Dオブジェクトを生成する機能と、衣服の柄を生成する画像生成機能が実装されている。テキスト入力から衣服に関する情報を抽出するために、ChatGPTのような大規模言語モデルも活用されている。

　上海科技大学は、テキスト入力から複雑な形状の3Dオブジェクトを生成するAI「CLAY」も発表している（※9）。このAIの開発にあたっては、高品質な出力を実現するために、学習データの収集に労力を費やしたと語られている。具体的には、既存の3DオブジェクトデータセットであるShapeNetやObjaverseから高品質なデータを選抜したうえで、52万7,000個の3Dオブジェクトで構成された学習データを用意したのだという。

[SIGGRAPH 2024]CLAY: A Controllable Large-scale Generative Model for Creating High-quality 3D Assets

　なお、前出のDressCodeとCLAYはどちらも『SIGGRAPH 2024』の優秀論文に選出された（※10）。

　中国・清華大学らの研究チームは、1枚のキャラクター画像からそのキャラクターの3Dオブジェクトを生成するAI「CharacterGen」を発表した（※11）。このAIは、任意のキャラクター画像を入力すると、前後左右から見た4枚のマルチビュー画像セットを生成後、さらにこの画像セットを用いて3Dオブジェクトを生成する。

　実際にCharacterGenを試行できるデモページが用意されている（※12）。生成された3Dオブジェクトは、ゲーム開発などでよく利用される「Aポーズ」（左右の腕を斜め下に広げた姿勢）で出力される。この出力結果をポーズを自由に設定するためにボーン（関節）などを設定するツールであるAccuRIGに入力すれば、生成した3Dキャラクターのポーズをさまざまに変えられる。

アバター、街並み、果ては「群衆行動」までーー留まる所を知らない“生成AIの現在地”　『SIGGRAPH 2024』レポート

「カメラ制御」を可能とする次世代の動画生成AI

3Dオブジェクト生成AIは衣服や複雑な形状の生成が可能に

関連記事

SNSで話題の“口が悪すぎるAI診断サービス”

「LAUGH DiAMOND」P＆Dインタビュー

十束おとはが“涼しい令和の夏祭り”に行ってきた

ランキング

滝沢眞規子、豪華キッチンで夕飯作り

鈴木優香、ランボルギーニを初体験

ノンスタ井上、2000万円のポルシェに驚愕

ゆうこす、”激太り”していた姿を公開

ゆきりぬ、子宮の腫瘍が見つかったことを報告

ヒカキン開発の『みそきん』が本日10時より再販

新「Ginza Sony Park」に潜入してきた

ヒロミ、松本伊代と仲の良さに反響

『空の軌跡』は20年の歴史への“入門編”だ

“VTuberの主体性”は魂、IPどちらにある？

ヒロミ、松本伊代と仲の良さに反響

ゆうこす、”激太り”していた姿を公開

大原優乃、サーフィンに挑戦

元モー娘。紺野あさ美がワンオペ育児を公開

大人の科学『35mmフィルムカメラ』の予約が開始

佐々木希、　我が家の“唐揚げ”レシピを公開

滝沢眞規子、豪華キッチンで夕飯作り

あま猫、ランボルギーニで日本一周企画始動

小林幸子、新型アルファードを購入

TXTのVRコンサートを“見るべき”理由

インタビュー

くれまぐが女性のからだの悩みを発信する理由

なぜ“1杯500円”のフルーツジュースが売れる？

赤坂泰彦×Chage対談

Pick Up!

ゲーム音楽の“皇帝”伊藤賢治のイヤホン論

歌広場淳×アルランディスの格ゲーマー対談

本間昭光に聞く「AKG」サウンド

blueprint book store

「カメラ制御」を可能とする次世代の動画生成AI

3Dオブジェクト生成AIは衣服や複雑な形状の生成が可能に

関連記事

SNSで話題の“口が悪すぎるAI診断サービス”

「LAUGH DiAMOND」P＆Dインタビュー

十束おとはが“涼しい令和の夏祭り”に行ってきた

ランキング

滝沢眞規子、豪華キッチンで夕飯作り

鈴木優香、ランボルギーニを初体験

ノンスタ井上、2000万円のポルシェに驚愕

ゆうこす、”激太り”していた姿を公開

ゆきりぬ、子宮の腫瘍が見つかったことを報告

ヒカキン開発の『みそきん』が本日10時より再販

新「Ginza Sony Park」に潜入してきた

ヒロミ、松本伊代と仲の良さに反響

『空の軌跡』は20年の歴史への“入門編”だ

“VTuberの主体性”は魂、IPどちらにある？

ヒロミ、松本伊代と仲の良さに反響

ゆうこす、”激太り”していた姿を公開

大原優乃、サーフィンに挑戦

元モー娘。紺野あさ美がワンオペ育児を公開

大人の科学『35mmフィルムカメラ』の予約が開始

佐々木希、 我が家の“唐揚げ”レシピを公開

滝沢眞規子、豪華キッチンで夕飯作り

あま猫、ランボルギーニで日本一周企画始動

小林幸子、新型アルファードを購入

TXTのVRコンサートを“見るべき”理由

インタビュー

くれまぐが女性のからだの悩みを発信する理由

なぜ“1杯500円”のフルーツジュースが売れる？

赤坂泰彦×Chage対談

Pick Up!

ゲーム音楽の“皇帝”伊藤賢治のイヤホン論

歌広場淳×アルランディスの格ゲーマー対談

本間昭光に聞く「AKG」サウンド

blueprint book store

大原優乃、サーフィンに挑戦　

佐々木希、　我が家の“唐揚げ”レシピを公開