2024.01.15 07:00

GoogleとOpenAIの争いは激化必至か　2024年注目の生成AIトレンド4項目

文＝吉本幸記

LLMアプリのカンブリア爆発　アプリの多様化に関わる3つのキーワード

　前述したように2024年は、二大LLMプラットフォームが熾烈な競争を繰り広げると予想される。この競争から多種多様なLLMアプリが誕生することは、想像に難くない。2024年は、「LLMアプリのカンブリア爆発」が起こった年として記憶されることになるだろう。

　LLMアプリの多様化を考察するうえで重要なキーワードを挙げるならば、「マルチモーダル」「AIエージェント」「AutoGen」の3つがある。1つ目の「マルチモーダル」は、テキストや画像といった「カテゴリーの異なる情報」を統合して処理できるAIの能力を意味している。

　このカテゴリーの初期のアプリ事例には、GPT-4を使った「Be My Eyes」がある。弱視のユーザーのために開発されたこのアプリは、たとえば冷蔵庫の中を撮影すると食材を認識し、おすすめのメニューを提案するといった活用が可能だ。

　そのほかにもマルチモーダルLLMアプリで実現できるタスクは、無数に考えられる。たとえばクローゼットの中にある衣服を撮影するとおすすめのコーディネートを提案したり、Webページのデザイン画像を入力するとそのデザインを実現するHTMLコードを出力したりするアプリが今後普及するだろう。

　2つ目のキーワードである「AIエージェント」とは、何らかのタスクを自動的に実行するLLMアプリを指している。LLMアプリの始祖とも言えるChatGPTは、「自然言語で入力した質問に答えてくれるAI」であることは周知のとおりである。

　実のところ、同アプリは質問に答えるだけではなく、たとえば「以下に入力した英語を翻訳して」といったような自然言語で指示したタスクも実行できる。こうしたLLMのタスク遂行能力を利用するのが、AIエージェントである。2024年は、AIエージェントによる各種業務の自動化が進むだろう。

　3つ目の「AutoGen」とは、人間であるユーザーとAIエージェントのコラボレーションを可能とするフレームワークである。このフレームワークの開発に関わったMicrosoftリサーチは、AutoGenの活用事例を解説したウェブページを公開している（※3）。

　そのページで図解されている事例には、AIエージェントが進行役（以下の画像では「Manager」）を担当するチャットミーティングがある。こうしたミーティングでは、AIエージェントに発言の要約や、過去の発言の検索を頼めるようになるだろう。またAutoGenを活用すれば、AIエージェントをゲームマスターにしたマルチプレイTRPGのような、新たなエンタメLLMアプリが誕生するかも知れない。

クリエイティブ現場での活用が進む「グラフィックAI」の進化と普及

　2022年に台頭した画像生成AIは、賛否を受けつつも2023年には「AI美少女」に代表されるようにデジタル文化の一部にすっかり定着した。その流れを汲んで、2024年には動画や3Dオブジェクトを生成するグラフィックAIが普及すると予想される。

　動画生成AIに関しては2023年6月に「Runway Gen-2」が公開され（※4）、同年11月には「Pika」正式版も公開されたように（※5）、着々と利用環境が整いつつある。2023年12月19日には、Googleが「VideoPoet」を発表した(※6)。既存の動画生成AIの技術的基盤には拡散モデルが使われているのだが、VideoPoetにはLLMが活用されている。こうした技術革新により、VideoPoetはより一貫性のある動画を生成できるようになった。YouTubeにはVideoPoetを活用した短編動画が公開されているが、こうしたテキストのみから生成された動画が2024年には大量に発表されるだろう。

Rookie the Raccoon - An AI Generated movie by VideoPoet, a Large Language Model

　3Dオブジェクト生成に関しても、2023年には大きな進歩があった。同年にはテキスト入力や1枚の画像から3Dオブジェクトを生成するAIの研究がさかんに行われていたのだが、年末には4Dオブジェクトを生成する技術である「Align Your Gaussians」が発表された（※7）。この技術を使うと、テキスト入力によって3Dオブジェクトをモーション（動作）付きで生成できる。モーションという次元が付加されるので、4Dオブジェクト生成というわけである。こうした技術は、インディーゲーム開発やメタバースコンテンツ制作の現場において活用が進むだろう。

　2023年11月末から12月はじめにかけては、動画生成AIの新たなカテゴリーとして「ダンス生成AI」があいついで発表された。TikTokの開発元であるByteDanseらの研究チームが発表した「MagicAnimate」（※8）は、人物を撮影した静止画とダンスを撮影した動画を入力すると、静止画の人物がダンスする動画を出力するというものだ。中国のオンラインマーケット企業最大手であるアリババグループ、その傘下の研究所が発表した「Animate Anymore」（※9）は、アニメキャラクターがダンスする動画を生成できる。2024年には、こうしたダンス生成AIを活用した動画がSNSでシェアされるようになるだろう。

Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation