2024.07.22 07:00

AI音声のリーディング企業Supertoneが日本市場進出　革新的音声変換技術が切り開く、“コンテンツ市場の未来”

文・取材＝Jun Fukunaga

多彩なバリエーションを備え、複数言語に対応するTTS技術「Supertone Play」

　今回、Supertoneが出展したのはTTS技術「Supertone Play」と先述したSupertone Shiftの2つ。当日の展示ブースでは、来場者が実際に両製品を体験できるデモコーナーが設置されており、多くの来場者の関心を集めた。このことからAI音声技術に対する高い注目度が伺えた。

　現在クローズドベータ版として提供されているSupertone Playは、テキスト入力による簡単な台詞編集だけで自然な音声コンテンツを生成できる創作ツールだ。これはナレーションやゲーム、広告など、あらゆるコンテンツ制作に適用できる自然な音声を複数言語で生成できるという特徴を持つ。特に韓国語と英語での音声変換の精度はグローバルで最高レベルと評価されるほどの高精度を誇る。

　Supertone Playでは、あらかじめ用意されている複数のキャラクターの音声を選択できるほか、言語（日本語、韓国語、英語）、スタイル（幸福、悲しみ、怒り、穏やかなど）、ピッチシフト（音声の高さ）、ピッチバリエンス（音声の相違）、スピード（音声が再生される速さ）など、各種パラメーター設けられている。これらを調整することで音声の高さや抑揚などを細かく設定できる。なお、今回展示されていたバージョンでは一度の音声出力時に入力できるテキストの文字数は200文字以内となっていた。

　実際に使用してみると、同じテキストに対して異なる設定パターンで音声を生成して比較することができた。スタイルの変更による感情の再現度が高く、ピッチシフトやピッチバリエンスの細かい調整で好みの音声を作成できる点が印象的だった。

　生成された音声の品質については、日本語はまだ開発中のため、一部のキャラクターでイントネーションに若干の違和感があった。しかし、日本語の精度の高いキャラクターの音声に関しては、かなり自然なイントネーションで出力が可能だった。Supertone担当者によると、年内には日本語の精度も韓国語と英語と同じレベルにまで引き上げられる予定だ。さらに来年中にはスペイン語や中国語などが追加され、より多くのグローバルコンテンツクリエイターをサポートしていくという。

『Supertone Play』デモ

　また、生成した音声はダウンロードして外部の映像編集ソフトや音声編集ソフトにインポートできるほか、ツール内のタイムラインに並べて連続再生も可能だ。さらにBGM音源もツール内のライブラリから選択して使用できるため、簡単なBGM付きナレーションであれば、Supertone Playのみで完結できる点も魅力的だ。

本当に“リアルタイム”なボイスチェンジャー「Supertone Shift」

　一方、現在オープンベータ版として公開中のSupertone Shiftは、いわゆる「リアルタイムボイスチェンジャー」だ。ユーザーは、あらかじめライブラリに搭載された10種類のキャラクターの音声から任意の音声に即座に切り替えて使用できる。また、音声変換時のブレンド率やピッチ、ジョイ、リバーブなどのボイス・パラメーターを調整することで、変換される音声をカスタマイズし、独自のスタイルを作り上げることも可能だ。

　実際に使用してみて、まず驚いたのは、10秒以内というサンプルボイスの分析に要する時間の短さだ。これは触れ込みどおりとはいえ、実際に体験してみると本当に少し話すだけで初期設定が完了するというスピード感に圧倒された。また、変換された音声の精度の高さも印象的だった。子供や女性、老人、あるいはアニメルックなキャラクターなどひととおり、試してみたが、いずれも音声変換の品質は非常に高かった。

『Supertone Shift』デモ

　視覚的に認知しているキャラクターのビジュアルのイメージどおりの音声が出力されるため、自分がまさにそのキャラクターに“転生”しているかのような気分が味わえるのも面白いポイントだ。このようなユーザーの心情に作用するところからも、Supertoneが掲げる「多様で表現力豊かな声の無限の可能性」というモットーを強く実感した。

　また、先述のSupertone Play同様、各種パラメーター調整による音声カスタマイズの効きも良好だった。たとえば、「ブレンド」では、本人の声とキャラクターの声の比率をリアルタイムで調整することができる。「ジョイ（よろこび）」のパラメーターは、最大値と最小値では、感情の変化による声のトーンの抑揚はかなり違う。なお、リバーブのパラメーターは、最初の設定のまま使い続けることもできるが、会話のシチュエーションに応じてユーザー自身がリアルタイムで変更することでインパクトのある音声効果を作ることも可能だ。

　各種パラメーター操作はスライダーの上げ下げで行えるため、たとえばライブ配信中にリアルタイムで設定を変えたい場合も手軽かつ感覚的に行える。このようなユーザビリティの高さにも魅力を感じた。

　そんなSupertone Shiftで特に注目すべきは、やはり先述した音声が出力されて聞き手に届くまでの遅延時間を、人間が認識できないレベルである47ミリ秒まで短縮している点だ。実際に体験すると、本当に変換後に出力されるまでの時間にタイムログを感じない。まさに“リアルタイム変換”と言って過言ではないほどだった。そんな体験を可能にする世界的にも非常に優れたこの技術における優位性について、Supertone担当者は次のように説明する。

「Supertoneの基盤技術のひとつ、リアルタイム音声変換には、“低遅延”、“自然なサウンド（音声）の生成”、“少ない学習データ”、“GPUを使わずに変換できるハードウェアソリューション”という4つの重要な特徴があります。また、当社の社員の半数を研究開発者が占めており、より効率的にAIを活用するための研究に取り組める環境を整えています。しかもその研究開発者の中には音楽家から研究開発者に転身した人も多く、そのような音声変換に強み持つ研究開発者が多数所属していることも、当社の他社にはない強みになっています」