AI音声のリーディング企業Supertoneが日本市場進出 革新的音声変換技術が切り開く、”コンテンツ市場の未来”

 2024年7月3日〜5日にかけて、東京ビッグサイトで開催された『第15回 コンテンツ東京』。日本最大規模を誇るこのコンテンツ総合展示会に、日本市場に初進出となる韓国のAIオーディオ企業・Supertone(スーパートーン)が初出展した。

 Supertoneは、2020年に設立されたAIオーディオ技術のリーディングカンパニーだ。2023年にはBTSやNewJeans、LE SSERAFIMなど人気K-POPグループを多数擁するHYBEの傘下となった。その後、HYBEと協業して音楽と技術を融合したアーティスト「MIDNATT」プロジェクトを展開。さらにDisney+のドラマシリーズ「カジノ」やNetflixの『マスクガール』、また故人である韓国のレジェンド歌手の音声再現コンテンツなど、クリエイティブな技術適用事例を次々と披露してきた。このようにSupertoneは現在、エンターテインメント業界との強い結びつきを持つことでも知られている。

 今回のコンテンツ東京では、同社はコンテンツ制作に最適化されたTTS(Text-to-Speech)技術とリアルタイム音声変換サービスを出展。来場者に最先端のAI音声技術を直接体験する機会を提供した。

 本レポートでは、Supertoneの展示ブースでの体験と担当者へのインタビューを通じて、同社の革新的な技術と日本市場における展望について紹介する。

これまでのSupertoneの歩みと、代表的な技術

 Supertoneは、AIを活用したリアルタイム音声変換、TTS、ノイズ除去、言語ローカリゼーション技術などを独自に研究し保有している。その革新的なAI音声技術の中核を成すのが「NANSY(Neural Analysis & Synthesis)」と呼ばれる基礎モデルだ。

 NANSYは、音声の構成要素である音色、言語特性、ピッチ、ラウドネスなどを分解し、再構成することに特化したモデルである。この技術により、Supertoneは無限のバリエーションを持つリアルな音声を生成することが可能となっている。

 NANSYを基盤として、Supertoneは複数の先進的な音声技術を開発している。その代表的なものとして、「CVC(Controllable Voice Conversion)」、「RTSE(Real-Time Speech Enhancement)」、「RTVC(Real-time Voice Conversion)」が挙げられる。

 CVCは、Supertoneが誇る高忠実度音声変換技術だ。この技術は、NANSYを用いて提供された音声の各構成要素を個別に制御・分析し、ユーザーの意図に沿った音声を合成する。特に高品質な音声が求められるメディア業界において、クリエイターの意図を忠実に反映した音声制作に活用されている。

 RTSEは、Supertoneが開発した世界最先端のノイズキャンセリングソリューションだ。この技術は、入力された音声をリアルタイムで「音声」「音声残響」「ノイズ」の3つのチャンネルに分離する。Supertoneの最先端ニューラルネットワークモデルを基盤とするRTSEは、音声の明瞭さを大幅に向上させることができる。2023年11月には、この技術を応用したオーディオプラグイン「Supertone Clear」がリリースされている。

 RTVCは、今回展示されたリアルタイム音声変換サービス「Supertone Shift」の基盤となる技術だ。RTVCは、ユーザーが自分の声をリアルタイムで別の声に変換し、話したり歌ったりすることを可能にする。これにより単に声を変換するだけでなく、ユーザーの声と変換後の声をブレンドしたり、ピッチや他の音声成分を調整したりすることで、リアルタイムで理想の声をデザインできるというわけだ。また、わずか47ミリ秒(0.047秒)という、聞き手が認識できないレベルのレイテンシー(遅延時間)で声を変更できる点が大きな特徴に挙げられる。

関連記事