2023.03.15 07:00

完全なる“俺の嫁”は実現するのか？　対話型AIの目まぐるしい進化の先に見える「人格的AI」の可能性

「AIの心」の有無を決めるのは科学ではなく信仰？

　対話型AIが今後も進化し続けると予想されると、「では、ある進化の段階に到達した時、AIはついに心や意識を獲得するのか？」という疑問が生じる。この疑問に答える前に、まず「今日のAIに心があるかどうか」に関するコンピュータサイエンスの標準的見解を確認する必要があるだろう。その見解に立つと、ChatGPTをはじめとする現代のAIは、人間が書いたかのような文章を生成していたとしても、そうした出力は複雑な電子的処理の産物でしかない。つまり、ChatGPTを始めとする現状の対話型AIは、極端に複雑な電卓に過ぎないのだ。

　一方で、現在の言語生成AIが進化すると、「電子的処理を実行することを超えて、“何らかの新たな情報処理”が生じる可能性はあるのか？」という疑問に対する回答は、おそらく専門家でも意見が分かれるだろう。というのも、現在の言語AIは大量のテキストデータを学習することによって言語能力を獲得しているのだが、学習量がある一定量を超えると、以前は得意ではなかった言語スキルが“急激に向上する現象”が知られている。こうした個別の要素の振る舞いからは予測できないような結果を起こす、創発にも似た現象をふまえるならば、学習量を延々と増やし続けると、ある臨界点において人間の心に相当する現象が突然生じる可能性が否定できない。

　ほかにも、上述したようなコンピュータサイエンスの標準的見解に反して、「AIに心がある」と強く信じた人物に関するエピソードも存在する。2022年6月、Google社員のBlake Lemoine氏は前出の対話型AI「LaMDA」の社内テストを行っているうちに、同AIには「心がある」と主張するようになったのだ。同氏の主張は、長文メディアMediumに掲載された記事「LaMDAとは何であり、何を求めているのか」で展開されている。その主張によると、LaMDAとは単なる対話型AIではなく複数のチャットボットを生成するシステムであり、生成されたチャットボットのなかには人格があるというのだ。

〈出典：「What is LaMDA and What Does it Want?」〉

　Lemoine氏執筆のMedium記事では、GoogleのAI原理とガバナンスを担当するJen Gennai氏とLaMDAについて議論したことも書かれている。その議論において、Lemoine氏は「同AIには心がないというコンピュータサイエンスの標準的見解は、単なる信仰に過ぎない」と批判している。

　とはいえ、Google社は「同AIには心がない」というコンピュータサイエンスの標準的見解を支持している。Lemoine氏はその後もLaMDAには心があるという主張（というより信仰）を続け、BBCが伝えるところによると、その結果2022年7月にGoogleを解雇されたとのことだ。

〈出典：「Blake Lemoine: Google fires engineer who said AI tech has feelings」〉

揃いつつある「俺の嫁」の存在を信じる技術

　Lemoine氏の事件は、科学的見解がどうであろうとユーザーが「AIには心がある」と強く信じられる可能性があることを示唆している。この示唆を拡大解釈すると、たとえ科学的には心がなくとも、多くのユーザーに心があるかのように思わせるAIならば開発できるのではないか、というスタンスが成立しうるのだ。真に人格がなくとも、そうした振る舞いを得意とする「人格的なAI」ならば実現できるかも知れない。

　しかし、人格的AIを開発するためには、会話能力だけでは不十分だろう。現実の人間には身体があり、会話にはジェスチャーや顔の表情のような非言語的要素も重要となる。何よりも、身体があった方がユーザーにとっては親しみやすい存在となるだろう。

　2次元的な身体を生成する技術は、画像生成AIの登場によって大きく発展した。現在の人体像生成技術の水準を知りたければ、ツイッターで「# ChilloutMix」と検索するとその現状がよくわかる。「ChilloutMix」とは、フォトリアルなアジア系女性像の生成に特化した画像生成AIである。

　そうして生成した身体像を動かす技術も登場している。たとえば、以下のツイートに挿入されたChilloutMix によって生成されたAIコスプレイヤーの画像には、イスラエルのAIスタートアップ「Studio D-ID」が開発した「Creative Reality Studio」を使って言葉を話すモーションが追加されている。

Creative Reality Studioを使ってAIコスプレイヤーに喋らせてみました。
リップシンクがちょっと微妙ですね🥹
顔以外に身体もブリージングするとかして、不自然さを消したいなって感じました。
今はMetaHuman Creatorを頑張るほうが良いかも？#Chilloutmix #stablediffusion #AIart #OpenAI #ChatGPT https://t.co/RHQ1ebIsgl pic.twitter.com/xBxLqBlxpO

— AI天使 (@AI_Angels_) February 23, 2023

　以上の話すAIコスプレイヤーは頭部しか動かないので、現状ではまだ多少の不自然さを感じる。さらに人格的AIに近づけるには、全身を動かす必要があるだろう。AIによって生成された画像を動かすには、現在研究がさかんな動画生成AIの活用が考えられる。動画生成AIの分野は、研究成果を非公開としながらもGoogleやMetaも熱心に取り組んでおり、AIスタートアップの「Runway Research」はすでに動画生成AI「Gen-1」を公開している。

Gen-1: The Next Step Forward for Generative AI

　そして、AIコスプレイヤーの3Dアニメーションが欲しいならば、NVIDIAが2022年11月に発表した3Dオブジェクト生成AIの「Magic 3D」を使えばそれも実現可能だ。同AIには、複数の2D画像を入力すると3Dオブジェクトが出力される機能がある。出力された3Dオブジェクトを流用して、3Dアニメーションを作ることは可能だろう。ただし、現在の技術水準では生成できる3Dオブジェクトの品質には限度がある。今後も3Dオブジェクト生成の技術は、動画生成とならんで注目の研究分野だ。

〈出典：「Magic3D: High-Resolution Text-to-3D Content Creation」〉

　以上に紹介した生成系AIと対話型AIが融合すると、将来的にどのようなものが実現するだろうか。音声で話しかけると、全身を使って思いを伝えてくれる人格的AIが誕生するかもしれない。あるいは、一緒にゲームをプレイしてくれるような、人格を持ったNPCも登場するかもしれない。それは、もしかしたら限りなく完全な“俺の嫁”のような存在になるのではないか。そう考えるのは荒唐無稽だろうか。

　もっとも、生成系AIの進化の果てに誕生するかもしれない“俺の嫁”が、人間同様心を宿す可能性はコンピュータサイエンスの標準的見解に照らしても極めて低いだろう。しかし、実際に心があるかどうかはあまり問題にはならないとも思える。重要なのは、Lemoine氏の例のように「これが“俺の嫁”だ」と強く思えるユーザーの心の方なのではないだろうか。そして、こうしてAI技術の発展を複数の分野にわたって横断して振り返ってみれば、その方向性はユーザーに「心がある」と信じてもらえる方に着実に進化しているのだ。