アバター、街並み、果ては「群衆行動」までーー留まる所を知らない“生成AIの現在地” 『SIGGRAPH 2024』レポート

AIの生成対象は街並みや“群衆行動”に拡大

 『SIGGRAPH 2024』では、グラフィックAIの新たな可能性を提示するような論文も発表された。Google傘下のAI研究機関・DeepMindらの研究チームは、街の地図から特定の位置を指示すると、その位置周辺のリアルな街並みを生成するAI「Streetscapes(※英単語で「街並み」を意味する)」を発表した(※13)。今回の発表ではパリ、ロンドン、バルセロナ、ニューヨークの街並みを生成するために、こられの都市に関するGoogleストリートビューから33キロ平方メートルをカバーする画像を学習データとして収集した。同AIのデモ動画を視聴すると、生成された街並みの動画はGoogleストリートビューより高画質なのがわかる。

Streetscapes: Large-scale Consistent Street View Generation Using Autoregressive Video Diffusion

 Streetscapesは、Googleストリートビューを凌駕する街並みを生成するだけではない。雨や雪といった天候や、日の出や夕方といった日照条件を設定して街並みを生成できるのだ。さらに、「道路の配置はパリのようだが、道路に並んでいる建物はニューヨーク」のような現実には存在しない街並みも生成できる。

 Streetscapesは地図アプリの新機能として実用化される可能性があるのみならず、映像制作やゲーム開発にも流用できるだろう。

 香港大学らの研究チームは、移動する群衆に関する文章を入力すると、その入力内容に合致するような群衆行動アニメーション(人混みや雑踏のシーン)を生成するAIを発表した(※14)。このモデルは群衆が行動する環境と移動する際の移動速度と方向を学習したうえで、入力テキストを理解する大規模言語モデルを統合することによって実現した。

 以上のAIには、映像制作やゲーム開発における群衆アニメーションの制作を容易にするポテンシャルがある。近い将来、こうしたAIがCG制作ツールや各種ゲームエンジンに統合されるかもしれない。

 ここまで紹介した論文からわかるように、グラフィックAIはコンテンツ制作におけるさまざまな業務を支援する方向に進化し続けていることがわかる。それゆえ、AIをうまく使えるクリエイターはいっそう“仕事ができる”ようになるだろう。また、AIはコンテンツ制作に縁がなかった人々に“ものを作る喜び”をもたらしてくれるかもしれない。引き続きクリエイター・非クリエイターを問わず、関心のある方は注視すべきだ。

〈参考〉

(※1)SIGGRAPH 2024公式サイト(https://s2024.siggraph.org/
(※2)Google Researchら「RealFill | Reference-Driven Generation for Authentic Image Completion」(https://realfill.github.io/
(※3)Google Researchら「The Chosen One: Consistent Characters in Text-to-Image Diffusion Models」(https://omriavrahami.com/the-chosen-one/
(※4)香港城市大学ら「Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion」(https://direct-a-video.github.io/
(※5)南洋理工大学ら「MotionCtrl: A Unified and Flexible Motion Controller for Video Generation」(https://wzhouxiff.github.io/projects/MotionCtrl/
(※6)Hugging Face「MotionCtrl: A Unified and Flexible Motion Controller for Video Generation」
https://huggingface.co/spaces/TencentARC/MotionCtrl
(※7)トレント大学ら「Promptable Game Models: Text-Guided Game Simulation via Masked Diffusion Models」
https://snap-research.github.io/promptable-game-models/index.html
(※8)上海科技大学ら「DressCode: Autoregressively Sewing and Generating Garments from Text Guidance」
https://ihe-kaii.github.io/DressCode/
(※9)上海科技大学ら「CLAY: A Controllable Large-scale Generative Model for Creating High-quality 3D Assets」
https://sites.google.com/view/clay-3dlm
(※10)SIGGRAPH Blog「SIGGRAPH 2024 Technical Papers Awards: Best Papers, Honorable Mentions, and Test-of-Time」
https://blog.siggraph.org/2024/06/siggraph-2024-technical-papers-awards-best-papers-honorable-mentions-and-test-of-time.html/
(※11)清華大学らの研究チーム「CharacterGen: Efficient 3D Character Generation from Single Images with Multi-View Pose Calibration」
https://charactergen.github.io/
(※12)Hugging Face「[SIGGRAPH'24] CharacterGen: Efficient 3D Character Generation from Single Images with Multi-View Pose Calibration」
https://huggingface.co/spaces/VAST-AI/CharacterGen
(※13)DeepMindら「Streetscapes: Large-scale Consistent Street View Generation Using Autoregressive Video Diffusion」
https://boyangdeng.com/streetscapes/
(※14)香港大学ら「Text-Guided Synthesis of Crowd Animation」
https://mlzg.github.io/Publications/Sig24_TextCrowd/

メタバースやアニメに活用される最新グラフィックAI事情 『SIGGRAPH 2023』&『NVIDIA AI DAY』2つのイベントから読み解く

画像生成技術の発達やディープフェイクの増加に見られるように、AIがグラフィック技術に大きな影響を与えていることは周知の通りだ。テ…

関連記事