アバター、街並み、果ては「群衆行動」までーー留まる所を知らない“生成AIの現在地” 『SIGGRAPH 2024』レポート

 AIによる画像生成は今日ではもはや珍しい技術ではなく、最近ではOpenAIの『Sora』をはじめとする動画生成が注目されている。生成AIとコンピューターグラフィックが重なり合う「グラフィックAI」の領域は、進化が著しい技術分野のひとつである。

 グラフィックAIの最前線を知るには、コンピューターグラフィックに関する世界最大のカンファレンス『SIGGRAPH 2024』(※1)で発表された技術論文をあたるとよい。そこで本稿では、同カンファレンスで発表されたグラフィックAIに関する興味深い論文を画像生成、動画生成、3Dオブジェクト生成、その他の生成という4つのカテゴリーから、合計10本を紹介する。

より複雑な処理を実現する画像生成AI

 Googleの研究部門であるGoogle Researchらの研究チームは、画像の欠落部分を整合的かつ高品質に補完するAI「RealFill」を発表した(※2)。画像生成AIによって画像内の一部分を整合的に補完するインペインティングや、画像を外側に拡張するアウトペインティングは現在ではありふれた技術で、Adobe製品などにも搭載されている。

 しかし、この技術を活用した場合、時として整合性のない補完処理が行われることがある。こうした失敗は、AIが補完対象となる画像と矛盾する補完を「正しいものだ」と誤認する、言わば「画像のハルシネーション(幻覚)」に起因する。

 RealFillは、以上のような失敗を克服するAIである。同AIは、補完対象となる画像と同一のシーンで撮影された数枚の画像から学習することで、整合的かつ高品質な補完処理を実現した。参照画像は、被写体が同じであればカメラの位置や照明設定が異なっていても学習に支障がない。

 またGoogle Researchは、人物をはじめとする生成されたキャラクターの同一性を保ちながらさまざまな画像を生成するAI「The Chosen One」も発表している(※3)。生成キャラクターの同一性の維持は画像生成における克服すべき課題のひとつであり、これまでにもさまざまな解決策が提案されてきた。このAIは、「生成キャラクターの同一性問題」に関する新たな解説策と言える。

 The Chosen Oneは、最初のテキスト入力に対して多数の画像を生成する。そして、これらの画像を共通した特徴にもとづいてグループに分ける。さらにテキスト入力すると、入力された内容に類似するグループが持っている特徴を再現しながら、新たな画像を生成する。このようにして共通の特徴を保持しながら、多様な画像を生成するのだ。

The Chosen One: Consistent Characters in Text-to-Image Diffusion Models [SIGGRAPH 2024]

 以上のふたつのAIは、いずれもクリエイターと一般ユーザーの両方にとって役立つ技術なので、近い将来に実用化されるかもしれない。

関連記事