テキストから“遊べる3D世界”を生成 Google DeepMindの「Genie 3」が米国で提供開始

テキストから3D世界を生成するGenie 3

 Googleは1月末、3D空間をリアルタイムに生成できるAIモデル「Genie 3」を、一般向けにリリースした。Genie 3では、一体何ができるのだろうか。

 「Genie 3」とは?テキストから3D空間を生成するAIモデル

Genie 3: Creating dynamic worlds that you can navigate in real-time

 GenieはGoogle DeepMindが2024年に発表した、「画像やテキストから、実際にプレイ可能なゲーム世界を生成するAIモデル」だ。正式名称は「GENerative Interactive Environments(生成的インタラクティブ環境)」で、その頭文字をとってGenieと呼ばれている。

 Genie 3では上の動画のように、ユーザーが指示したテキストをベースに3D空間を作成し、アクションゲームのように移動することができる。ユーザーはキーボードやコントロールで、画面内を移動したりジャンプすることもできる。

 なお、GenieはグーグルのAIアシスタント「Gemini」とは異なる。Geminiは対話や推論、コーディング、画像や音声認識を得意としている。一方でGene 3は、「世界モデル(World Model)」と呼ばれる、物理法則や物体の動きの理解、仮想世界のシミュレーションに特化している。

20万時間のゲーム動画から学んだ「教師なし」AIモデル

 Genieが画期的だった理由として、「教師なし学習」でモデルが作られている点があげられる。具体的にはインターネット上から20万時間以上のゲームプレイ動画を学習させ、「キャラクターがどう動いているか」「背景とどう作用しているか」を解析し、「操作可能なアクション」を自ら学習した。

 Genie 3では、動画生成AIの弱点だった「時間が経つと背景やキャラが変化する」「以前あった物体が消える」という問題も解決されている。Genie 3ではリアルタイムでの生成ながら、HD画質(720p)かつ秒間24フレームという滑らかさで動作する。

提供は米国からスタート、ロボット学習への活用も視野

 Genie 3は米国の18歳以上かつ、「Google AI Ultra」のサブスクリプション加入者向けにアクセスが始まった。今後は他の地域でも、提供が開始される予定だ。

 GoogleはGenie 3の活用方法として、ロボットなどのAIエージェントが現実世界で起こり得る危機を体験し、学習できるとしている。今後はエンタメの分野でも、AIがさらに活用されることになりそうだ。

出典
※ https://deepmind.google/blog/genie-3-a-new-frontier-for-world-models/

TOKYO PROTOTYPEでGoogleがハードウェアデザイン展 「自然」と「サステナビリティ」を軸にした開発思想を本国のデザインチームが紹介

Googleが「TOKYO PROTOTYPE」でハードウェアデザイン展を開催。「自然」と「サステナビリティ」を軸に、Pixel…

関連記事

リアルサウンド厳選記事

インタビュー

もっとみる

Pick Up!

「コラム」の最新記事

もっとみる

blueprint book store

もっとみる