テキストから“遊べる3D世界”を生成 Google DeepMindの「Genie 3」が米国で提供開始
Googleは1月末、3D空間をリアルタイムに生成できるAIモデル「Genie 3」を、一般向けにリリースした。Genie 3では、一体何ができるのだろうか。
「Genie 3」とは?テキストから3D空間を生成するAIモデル
GenieはGoogle DeepMindが2024年に発表した、「画像やテキストから、実際にプレイ可能なゲーム世界を生成するAIモデル」だ。正式名称は「GENerative Interactive Environments(生成的インタラクティブ環境)」で、その頭文字をとってGenieと呼ばれている。
Genie 3では上の動画のように、ユーザーが指示したテキストをベースに3D空間を作成し、アクションゲームのように移動することができる。ユーザーはキーボードやコントロールで、画面内を移動したりジャンプすることもできる。
なお、GenieはグーグルのAIアシスタント「Gemini」とは異なる。Geminiは対話や推論、コーディング、画像や音声認識を得意としている。一方でGene 3は、「世界モデル(World Model)」と呼ばれる、物理法則や物体の動きの理解、仮想世界のシミュレーションに特化している。
20万時間のゲーム動画から学んだ「教師なし」AIモデル
Genieが画期的だった理由として、「教師なし学習」でモデルが作られている点があげられる。具体的にはインターネット上から20万時間以上のゲームプレイ動画を学習させ、「キャラクターがどう動いているか」「背景とどう作用しているか」を解析し、「操作可能なアクション」を自ら学習した。
Genie 3では、動画生成AIの弱点だった「時間が経つと背景やキャラが変化する」「以前あった物体が消える」という問題も解決されている。Genie 3ではリアルタイムでの生成ながら、HD画質(720p)かつ秒間24フレームという滑らかさで動作する。
提供は米国からスタート、ロボット学習への活用も視野
Genie 3は米国の18歳以上かつ、「Google AI Ultra」のサブスクリプション加入者向けにアクセスが始まった。今後は他の地域でも、提供が開始される予定だ。
GoogleはGenie 3の活用方法として、ロボットなどのAIエージェントが現実世界で起こり得る危機を体験し、学習できるとしている。今後はエンタメの分野でも、AIがさらに活用されることになりそうだ。
出典
※ https://deepmind.google/blog/genie-3-a-new-frontier-for-world-models/