生成AIは“ユーザーの遍在化”を実現するのか バーチャルビーイング研究者・佐久間洋司が見据えるAI×バーチャルの未来

 昨今、生成AIはさまざまな分野で存在感を強めている。2022年11月の『ChatGPT』無料公開、そしてその革新性が広く認知されることにより、「AI」への注目度はさらに高まるようになった。

 各ジャンルのAIに詳しい方々に話を聞く特集『生成AIとカルチャー』。今回はバーチャルビーイング研究者で、2025年大阪・関西万博 大阪パビリオンのディレクターも務めるなど、多岐にわたって活躍する佐久間洋司氏に話を伺った。

 先述のように生成AIの影響は多くの分野に波及しているが、佐久間氏が研究テーマとするバーチャルビーイングの領域にも大きなインパクトを与えている。AIとバーチャルビーイングがこれからどう発展していくのか、考え方のルーツやエンターテインメントがもたらす行動変容など、濃密な内容となっている。(小池直也)

「バーチャルビーイング」は異なる分野の人々と議論を重ねるために定義された言葉

――まずは佐久間さんが研究されている「バーチャルビーイング」について、あらためて教えていただけますか。いわゆるVTuberのことだと思っている人も多いと思います。

佐久間洋司(以下、佐久間):原義的には自律的にふるまうエージェントで、特にバーチャルヒューマンのような見た目、つまり人間のような3DCGモデルを被せたものを、Fable社など一部の海外スタートアップがブランディングのために「バーチャルビーイング」と呼び始めたのが、2019年ごろでしょうか。それは一つの名前の由来になっています。

 その後、Activ8社も自身がプロデュースするキズナアイについてバーチャルタレントであり、『バーチャルビーイング』の流れのなかにもあるとするなど、言葉を援用して説明するようになりました。VTuberなどのアバターを使った表現を指す概念としてイメージするのも間違いではありません。

 また「バーチャルビーイング」は、大阪・関西万博も見据えて、異なる分野の方々と議論ができるように新たに捉え直した言葉でもありました。落合陽一さんが提唱している「デジタルネイチャー」のように、存在したといえば存在したし、ないといえばないものを明示的にラベリングし直すことで、多様な方々と議論を重ねるための土台として提案した側面もあります。

――便宜的に新たなタームを生み出すことには批判的な意見もありそうです。

佐久間:そうですね。私自身も新たにタームを名付けることには慎重であるべきだと思っています。ただ人工知能やバーチャルリアリティ、ひいてはセンシングまでの各分野に、それぞれ独立してエージェントやアバターの研究をしている方がいるなか、そこには「バーチャルな身体性を伴った何か」として呼ぶことのできるものが存在すると思います。現実世界のロボットは役割や機能、分野によらずロボットと呼ばれますが、バーチャルな身体性を伴ったそれには名前がなく、分野を越えて議論することができる機会が少なかったという現実があったと思います。

 先日は『人工知能学会誌』で特集を組ませててもらったり、「2025年日本国際博覧会(大阪・関西万博)」で僕が担当する「未来のバーチャルビーイング」をコンセプトとするバーチャル大阪パビリオンなどでも、領域を問わない、さまざまな分野の専門家の先生に協力いただけるのは、この言葉でコンテクストの横断ができたおかげだと思います。

――昨今のAIの進歩についてはどう見ていますか?

佐久間:個人的にボカロPの方々とお話することが増えたのですが、ある友人はAIで生成したメロディを手持ちの優れた音源やライブラリを使って打ち込み直して、違和感のある部分だけ自分の耳で修正していけば、作曲スピードが何倍にもなると思ったそうなんです。ただ、実際に試してみたら「自分でやった方が早かった」と言っていました(笑)。

 ただ、それもモダリティ(テキスト、音声、画像など)や分野によるはずで、『サーキット・スイッチャー』の著者で、声質を変換するAIを岸田文雄総理大臣に紹介していたことでも知られているSF作家の安野貴博さんは、生成AIについて「20点しかとれないものを60点にする、または90点のものを100点にする手助けになる。でも60点のものを80点にすることは不可能」とおっしゃっていました。

――平均が底上げされるけど、もともと60点のスキルを持つ人にはメリットがないということですか。

 佐久間:そういうことですね。むしろ大規模言語モデルはその色が強いですが、使い方次第で効力が大きく変わるということがポイントです。画家とカメラの関係に例えるなら、際立ったスキルで写真以上の表現や雰囲気を作り出せる画家は引き続き働けるものの、それ以外の人は写真で事足りるユーザが増加するなかで仕事を失ってしまうかもしれません。トップクラスの画家や新しい技法として取り入れようという方々なら、カメラも活用してさらにクオリティが上げることもできる。概ねそのようなことではないかと思います。

――生成AIがここまで社会にインパクトを与えるとは予想できましたか?

佐久間:内閣府による『ムーンショット型研究開発制度』に新しい研究開発目標を追加する「ミレニア・プログラム」に選出されたとき、僕のチームは「これから先にどんな変化が訪れて、どんな研究開発をしたらいいのか」、文献調査や大規模なヒアリングをして明らかにするという調査研究をしていました。SF作家さんにシミュレーションとして創作をお願いする「SFプロトタイピング」なども行いました。そのなかでも各分野における第一線の先生方100人と2時間ほどディスカッションした経験は、大変でしたが本当に貴重な機会をいただきました。

 当時は生成AIについて、まだ世の中には知られていませんでした。しかし専門家は「GPT3」に触れていたこともあってか、テキストのみならず画像や音声も含むマルチモーダルな生成AIについて、その応用可能性を数年前から予測している方もいました。僕も正直「数年でそこまで行くのか?」と半信半疑で聞いていましたし、先生方もご自身の研究に関連した分野に限る断片的な予測をいただいていて、それらの技術を包括するアイデアはなかったようでした。その意味では、ここまで社会に影響を与えるとは思わなかったという認識のようです。

 それらの調査を受けて、発話に対して適切な過去のコンテキストの要約、そして発話したものが映像や画像になるようなインターフェイスが数年以内に登場するという予測とともに、それらの統合やUIの改善が日本の強みになると報告書にも記載しました。つまり、ほぼ3、4年後の予測ができていたんですね。「それぞれの分野の専門家による個々の予測を総合すると先が読めることもある」という経験は非常に興味深かったです。

関連記事