人工知能を学ぶのに必要な「3つの学問」とは? 三宅陽一郎と語り合う「基礎がない」学問の可能性
AIにとってのメタバースは「現実のテストサーバー」となるのか
ーーその考え方は面白いですね……。話を三宅さんのキャリアに戻すと、先述した3つの学問を研究したのち、実践の場としてゲームというジャンルを選びましたよね。 改めて、なぜゲームというジャンルを経由して人工知能研究を進めてこられたのかを伺いたいです。
三宅:3つの学問を経たうえで、私のなかには「知能というものは環境と一体となって知能となりうるのだ」という考えがありました。土がない場所でアリは存在しないように、魚は水の中でしか生きられないように、環境と知能はひとつのシステムとして成り立っているわけです。人間も地球のうえでしか生きられないと考えると、知能を考えるには環境が必要で、環境がなければ知能は別に作る必要がないのかもしれない、と思ったんです。ちなみに僕の言う「知能」は総合的な知能ーーつまり自分自身で生きることができるための「知能」なので、世界が存在するということが前提になってるわけですね。そういう意味でゲームはピッタリの題材だったんです。
ーーといいますと?
三宅:ゲームにはゲーム内の世界があって、その中に世界内存在としてキャラクターなどの知能が存在するわけですから、まさに自分が知能を考えるうえで最適な場所です。私が大学・大学院を過ごした90年代後半から2000年代初頭の時代は人工知能の研究は下火で、さらにデジタルゲームの研究を大学ですると言うことも考えられない時代でした。かろうじて囲碁や将棋、チェスの研究がありました。しかしゲームの中で人工知能が進化していくということに可能性を感じたので、あえてゲームを題材に人工知能を研究することにしたんです。
ーーそれはゲームがある種の制約を持っているぶん「試しやすい場所」であった、ということでしょうか。
三宅:それを制約と見るか、可能性を見るか、両義的なところがあります。例えばまったく制限のない白くて何もない部屋で人工知能を育てても、大した知能にはならない。逆に、洞窟の中や平原の上、寒かったり暑かったりする「制約付き」の場所の中で生き延びることによって、知的機能を獲得していくというのは、長い目で見ると「可能性を育んでる」ということでもあると思います。
ーーなるほど、そういう意味ではゲームが人工知能にとってちょうどいい環境だったとも言えそうですね。ゲーム業界の急速な発展と、人工知能の進化がちょうどいい成長スピードで噛み合っていたように思えるのですが、三宅さんの視点からはどう見えていますか?
三宅:1995年から2015年まではまさにそういった期間だったと思います。ゲームが複雑になり、より広大なマップや多くのキャラクター、細かなグラフィックを必要としたことで、キャラクターAIをはじめとした人工知能が急速に発展してきました。ただ、2016年以降はゲームデザインがある程度固定化されてきたこと、さらにオープンワールドと呼ばれるゲームの巨大化にゲームAIが適応するのに懸命にならざるを得なかったこともあり、本質的な発展のスピードは減速しました。しかし人工知能がディープラーニングの発展によってさらに伸びたことで、従来のステートマシンやルールベースと言ったシンボリックなAIをコネクショニズム、つまりディープラーニングを始めとする機械学習と組み合わせるなど、状況は変わってきたと思います。現代のゲーム開発はゲームエンジン(ゲーム開発の汎用的な要素が集合したシステム)上で行われますが、そのゲームエンジンにディープラーニングの開発パイプラインが垂直統合されることで、学習(データ学習、強化学習)から推論(思考、ここでは学習済みのディープラーニングを動かして、ゲーム内の入力から出力を得ること)までをゲーム開発が取り込みつつあります。Anvilエンジン(Ubisoft)などがその典型です。さらに現在は違う風が吹いていますね。
ーー違う風とは?
三宅:デジタル世界とゲーム世界がどんどんシームレスに融合していく時期ーーGPSや様々なIoTデバイスが出てくることで現実世界もある程度デジタライズ化され、ゲーム自体が拡張された現実と溶け合いはじめ、そこで育まれたAIたちも現実世界の中で機能するようになってきました。これは「Sim to Real」と呼ばれています。
ーーいま「Sim to Real」というキーワードが出ましたが、かつてはゲームと現実は二項対立のようなものでした。現在はデジタル空間と現実の間に「ゲーム〜メタバース〜XR〜現実」というグラデーションがあるように感じますが、どのようにお考えでしょうか。
三宅:そこはすごく面白いご指摘です。一番デジタルよりのものがフルデジタルだとすると、そこからXRや現実にデジタルデバイスを接続して接点を作るものがあったりと、現実とデジタルの境界面に干渉するものが増えてきましたよね。僕の中では「人間側をDXするのか、現実側を拡張するのか」だと思っているのですが……。有名な「リアリティ-バーチャリティ連続体」という図があります。これはリアルとバーチャリティの配合によって様々な複合現実があることを示した図です。
ーーその分け方は興味深いです。
三宅:わかりやすく言うと、自動ドアは現実側をデジタル化して人間のアクションを拡張する行為です。人間側は何も変わりませんが、現実側が変化することで、人間と世界の間の関係性が変わります。人間側のDXはメタバースのように自分自身がデジタルの中に入っていくことを指します。ゲームはデジタル世界内で一つの完結したアクションと感覚の組み合わせを提供する「人間側をDXする」ものから、現実にちょっとはみ出して、リアルな空間を巻き込みながら閉じる「現実側を拡張する」ものへと変化しているわけです。『Ingress』(Niantic, 2013)や『ポケモンGO』(Niantic, 2016)などがわかりやすい例ですね。そうして現実世界とデジタル世界の対立項でなくなったときに、人間と人工知能がどう関わっていくのかは現在の自分の研究テーマでもあります。
人間、人工知能、そして両者を包む世界を考えてはじめて、我々は人間と人工知能の関係を議論し始めることができます。完全な物理世界から、完全なデジタル世界(メタバース)まで、その間にはさまざまなグラデーションがあり、それぞれの段階で人間と人工知能のコミュニケーションは異なる形を取ることになります。
ーー三宅さんがメタバースに言及し始めたのはここ数年、具体的にいえば2022年以降だと思います。この背景にはどのような変化があったのでしょうか?
三宅:もともとメタバースという言葉は2000年前くらいから出てきました。当時は仮想の3Dオンライン空間=ゲームという認識でした。ただ、ゲームではないメタバースーー『Second Life』(Linden Lab, 2003)が登場したことに、私をはじめ様々な人が驚いたんです。当時ゲームは現実から切り離されているからこそゲームなのだという考えがあったのですが、現実と接続された仮想3Dのオンライン空間が出てきて、一気に「仮想商店街」や「仮想デパート」「仮想テーマパーク」といった商業的な使い方も考えられました。
メタバースの歴史を紐解くと3つの時期に分類することができます。2000年初頭に出てきた『EVE Online』(CCP Games, 2003)などのメタバース的ゲームや『Second Life』『Roblox』(Roblox, 2006)など汎用空間としてのメタバースです。興味深いことに、こういったサービスはその時代から現在まで根強い人気を博しており、現在でもこのジャンルの根を支えています。次にこういった初期のメタバースに触発されてゲーム産業が作り出した『meet-me』(ココア, 2008)『PlayStation Home』(SIE, 2008)『ai sp@ce』(ai sp@ce 製作委員会、2008)などのメタバース群です。第二期と言えるでしょう。しかし残念ながら大きな継続的なヒットはしませんでしたので、現在ではほぼすべてが終了しています。現代は、仮想通貨とSNSを取り込んだ第三期と言えます。『The Sandbox』Pixowl、2012)や『Horizon World』(Meta, 2019)が代表的です。
ただ、現在のメタバースに私が注目しているのは「人間が使わなくても、人工知能だけが使うメタバースがあればいい」と思っているからなんです。それは人工知能に空間想像力(空間を想像して自分の行動を作り出す力)と空間推論の力(空間想像の中で道筋や動作を決定する力)を与えることにもなります。例えば渋谷区で働く人工知能たちが、自分たちの情報を蓄積する場所として「渋谷メタバース」を利用してもいいわけです。そうすると、どこで何が起こったか、どの場所がどういうふうに別に場所につながっているかをデジタルツインの空間上でシェアすることができるんですね。これがなぜ仮想空間じゃないといけないかというと、「ここの看板が倒れている」「ここは人が多い」といった位置や空間の情報を整理するのに必要だからです。
ーーその視点はゲームのテストサーバーやシステムの開発者環境に近い印象を受けました。現実空間という、ユーザーに実際に見えたり影響する場所にいきなり実装するのではなく、ミラーリングした環境で動作を検証したうえで実装する、という行為をオンラインtoオンラインでやるのがテストサーバーや開発者環境だとしたら、オンラインtoリアルで実際の街の空間や人流なども踏まえながら高い精度で検証することができるのがメタバースの有効活用法だと。
三宅:そうですね。さらにオフラインのソフトウェアではなく、オンラインの空間なので、過去の知見やテストの様子が溜め込まれているというのも、今後は活きてくる場面が多いのではないでしょうか。
天体を観測するには天体望遠鏡があり、微生物や細胞を見るには顕微鏡があります。では都市を観測する望遠鏡は何かと言えば、デジタルツインメタバースだと考えています。都市のように多面的な多様体を観測するには、現実のさまざまな要素を集約するメタバースが必要かと思います。メタバースを通して現実を把握する、都市を把握することができるはずです。
ーー知識の集積が活きてくる、実装の過程を見るというのは確かに大事ですね。過程といえば、直近では推論モデルの登場が大きな話題になっています。推論モデルは結論に至るまでの過程ーー最短距離で答えに辿り着くのではなく、回り道の思考も辿る、つまり人間のように推論をすることが面白くて。これはゲームやメタバース上では必要なかったことかもしれませんが、XRや現実においてはすごく大切な感覚なのではないか、と思っています。
三宅:それは近年の「AIの大規模化」に関する一つの特徴かなと思います。インプットをできる幅がかなり広いため、いろんなパラメータを組んだ上での思考ができますから。簡単に言うと、ニューラルネットワークのノード数やパラメータ数が飛躍的に伸びたおかげで、ハズレ値まで含めた思考の幅が広がっている。それは、おっしゃる通り人間の知能と似ているわけですね。人間の知能は無駄が非常に多く、起こりもしないことを想像して疲れたりするわけですから。
では、なぜ人間はそういうふうな思考をしてしまうのかというと、万が一そういうことが起きたときにすぐ対処できるよう準備しているからです。これまでの言語モデルも一通りしか返ってこないように見えていても、実は裏側で数十通りを検証していたりするんです。ただ、推論モデルはそれよりもはるかに多い数のパターンを検証している。無駄だと思うこと、つまり起こる確率が低いことも思考できるようになったわけです。
ーー無駄を処理する余裕が生まれたというのは、まさに人間に近づくために必要な振る舞いを獲得したとも言えますね。
三宅:それは機能としてシステムを作る側の人にとっては必要ない要素なんですけどね。システム的には最適化したい、目標に向かって直進したい、電気代やマシンパワーをいかに使わないか、が大事なわけですから。
ーーたしかにそうですね(笑)。さまざまな立ち位置によって求めているものが変わってくるのだと改めて認識しました。三宅さんは現在、東京大学で現実空間における人工知能の応用研究を進めていますが、人工知能が現実という空間を正しく認識するために必要な環境とは?
三宅:客観的に3D空間を把握するわけではなく、ロボットやドローンなどに組み込まれた人工知能が現実空間を認識するとなると、前提として「生物は世界を正しくは認識していない」ということからお話する必要があると思います。
ーーそれは人間も含めて、ということですか?
三宅:そうです。それぞれの視界や空間認識能力に大きく依存してきますから。例えば正確なメートル数やセンチ数は分からないのですが「大体3歩くらい」「歩いていける」「ジャンプすれば届く」というのは人間が勝手に思い込んでる空間認識で、それは人間の身体能力や生態に応じて構築されているものです。自分のいるビルの見取図や街の地図を正確に書ける人は少ないですが、それでもちゃんとビルからは出れるし家にも帰れる。それぞれが間違った世界空間の認識をしているが、その生物にとっては歪んでいることが適切な認識なのだというのがヤーコプ・フォン・ユクスキュルが提唱した「環世界」という考え方です。
「環世界」の特徴は3次元座標空間からそれが成り立っているわけではない、ということです。たとえばある風景から次の風景を予測する、といった世界モデルや、匂いや湿気のある方向にジャンプする、と言った、行動が埋め込まれた混沌とした世界です。しかし、実は生物の行動というものはそういった主観的世界に誘導されており、行動を誘発しない端的な座標空間は生物の行動にとっては実効力の少ないものです。人間も自分の住んでいる街の地図をまともに描けばせんが、あの匂いのするうどん屋さんを曲がって、あの看板が見えてきたら左に曲がって…のように、環世界でいうこういった「指標」をベースに行動する方が自然であり楽なわけです。
ところがロボットの行動は客観3次元座標空間を出発点としますから、たいへんな労力と計算を必要とすることになり、また大きな限界をその中に抱えることとなります。
ーー人工知能が現実世界で活動するためには、正確な3Dモデルだけでなく、生物のような歪んだ「環世界」を持つことも重要で、そのためにはまず身体を持つことも欠かせないというのが三宅さんの考えなのですね。
三宅:そうです。ただ、世の中の人工知能研究者の9割は「身体はいらない」と思っています。あくまで自分の周囲の統計ではありますが。そういう身体・世界・知能の問題に直面するのは僕らゲーム開発者かロボット開発者が多いと思います。大抵の研究者はユークリッド的な客観空間のなかで動かす方がエレガントだと考えているはずですから。
ーー三宅さんのように、フィジカルな側面からのアプローチを重視されている研究者は、少数派なのかもしれませんね。三宅さんのご出身である京都大学をはじめとする関西の大学には、そういった研究者が多い、という印象もあります。あくまで個人的な主観なので、間違っているかもしれませんが……。
三宅:その印象は案外間違いではないかもしれません。京大は自分が在学していた頃から「人間とは何か」を人工知能を使って探求するーー人工知能で何かをするという目的ではなく、手段として人工知能を使う人たちが少なくありませんでした。最近も人工知能学会の学会誌で編集長として「人工知能の起源をたどる」というインタビューコーナーを担当しているのですが、1970年代後半くらいから盛り上がってきた人工知能周辺の学者さんって、京都大学や大阪大学、九州大学など、関西に多いことに気づいたんです。人工知能の第二次ブームと言われた頃などもわかりやすくて、その頃はコンピュータの性能もそこまで高くないですから、哲学と混ぜ合わせてなんぼ、みたいな風潮があって。ただ、そこに批判的な層が多い時期でもあり、関東のほうが風当たりは強く、関西のほうが比較的自由に研究ができたのではないかと推測しています。
ーー最後に、三宅さんは人工知能に対して今後どういったアプローチをしていこうと考えていますか。
三宅:先ほどお話ししたインタビューを含め、私のなかで「日本の人工知能の歴史をまとめたい」という機運があります。数学史をはじめとした学問の歴史の分野は多岐にわたるのですが、実は「人工知能史」の研究者ってとても少ないんですよ。「人工知能史」が専門です、という方にはお会いしたことがないです。そこで私自身がそこを切り拓いていけるよう、インタビューをはじめ、様々な方にお話を伺っていきたいと思います。