「秘密結社鷹の爪」の吉田くん、なぜAIVTuber化? 仕掛け人に聞く、AI×IPが生み出す“新たなエンタメのカタチ”
AIキャラクターの品質管理は「面白さ」と「安全性」のバランスが鍵
ーーその一方で、バックグラウンドがあるキャラクターの設定は無視できないというか。「これは言わない」「政治的な言及は控える」などのクオリティコントロールは、まだまだAIには難しいと問題だと言われていますよね。
成島:まさにいま、課題に直面している事例ですと、YouTube登録者100万人を超える人気チャンネル「そろ谷のアニメっち」のVTuberキャラクターである「ケツアゴ姉さん」が、コンテンツの方向性について慎重な見直しを迫られているんですよ。過激な発言をしすぎたのが原因かと思うのですが、これは予想外の大誤算でして(笑)。
本来であれば、すでに収益化が安定していてもおかしくない状況だったんです。そのため、現在は「いかに過激すぎず、キャラの魅力を失わないようにするか」というバランスのチューニングに日々励んでいます。
椎木:そうなんですよね。成島から話が出たように、「ケツアゴ姉さん」は面白さを追求しすぎるあまり、ちょっと“攻めすぎた”コンテンツになってしまっていて(笑)。その表現をどこまでコントロールするかがいまの課題になっています。
現在、LLM(大規模言語モデル)を制御する手法としては外部のデータベースを参照させるRAG(検索拡張生成)を用いるやり方のほか、ファインチューニングによって専用のモデルを作る方法やプロンプトを調整する方法などがあります。
「ケツアゴ姉さん」はIPとして立ち上がったばかりで情報量も少なく、まずはプロンプトベースで状況の設定だけを行い、会話を制御しているというのが現状です。そのぶん、制御が難しいところもありますが、できる範囲で面白さとバランスを模索している段階ですね。
ですが、すでに長く運用しているIPついては、RAGのデータベースを併用し、よりキャラクターらしい応答を返すように工夫しています。もちろん、レスポンス速度やコスト面ではデメリットがありつつも、キャラクターらしさや制御の精度は大きく向上します。
今後は適切なファインチューニングも含めて、IPの成長度合いや事業の将来性を見ながら、どういった技術をどのようにして取り入れていくべきかを適宜判断していこうと考えています。
ーー今回のAI VTuber「吉田くん」の動画は、自動生成で作られていると伺っていますが、制作において工夫した点や心がけたことはありますか?
川本:今回の流れとしては、まず私たちが「伝えたい内容」を企業様とも相談しながら文章にまとめ、それをDLEさん側でキャラクターに落とし込み、さらに合成音声で喋らせることで音声ファイルを作成しています。そして、その音声をベースに動きを加えて動画を完成させる制作フローになっています。
この仕組みによって、ひとりのキャラクターがニュース番組のような形式で企業の伝えたい情報を自然な語り口で話すというスタイルが実現できたと感じています。こうしたかたちで、「企業の情報を日常生活のなかで親しみやすく届ける」という新しい情報発信のスタイルをさらに広げていきたいと思っています。
また、AI×動画コンテンツが、これからより日常的に活用されていくなかで、「通信」というインフラの重要性が、これまで以上に高まっていくと感じています。そうなってくると、5Gのような高速かつ安定した通信環境が、ユーザー体験の質を大きく左右していくんですよね。今回のプロジェクトでも、動画を毎日配信するという運用を想定している点から、コンテンツの「量」と「質」の両面を通信環境で支えていて、AI技術と通信インフラの連動性というのも、大事なテーマとして意識していました。
AI時代にはすべてのコンテンツにエンタメを融合させていく「EoT」の考え方が重要
ーーありがとうございます。最後に 将来の展望についてお聞かせください。
川本:これまでの弊社の取り組みとしても、「スマパ課長」や「スマパ部長」といった実在の社員をキャラクター化し、映画館で上映されるコンテンツに登場させるケースもありました。そうした例のように、新たにオリジナルキャラクターを立てて情報発信を行うという展開も視野に入れていければと考えています。
日本の優れたキャラクター資産やIPとテクノロジーを掛け合わせ、国内外の企業に「日本のコンテンツは面白い」と感じてもらえるような、魅力的なコンテンツを生み出していきたいですね。
椎木:今回はPoC(実証実験)の位置づけで取り組んだこともあって、音声生成や原稿の部分は基本的に自動化されている一方で、一部の動画部分はどうしても人の手が入っているというのが前提になっています。しかし、システム的にはほぼ組める状態で、「ケツアゴ姉さん」で開発した仕組みを応用すれば、すぐにでも自動化のフローを回せる手応えを感じています。
最終的には、原稿を入力すれば音声が自動で生成され、その音声に連動して動きも自動で反映されて動画が出来上がるという、一連の流れを一気通貫で完結する仕組みを目指しています。
FROGMAN:うちの元代表が「IoT(モノのインターネット)」になぞらえて、すべてのコンテンツにエンタメを融合させていく「EoT(エンターテインメント・オブ・シングス)」という言葉を使っていました。
AIが進化してくる時代において、そういったアプローチがより一層求められると思っています。今回のKDDIさんとの取り組みもその一環で、原稿の生成などAIを多方面に活用し、僕らがどこまで省力化できるかという実験的な挑戦でもありました。その中でたくさんの気づきと学びが得られて、本当に価値のある取り組みになったと感じています。これからも、常に時代の先端をいく姿勢を大事に、新しいエンタメのカタチを追求していきたいですね。