あなたは「なりたい声」について考えたことがあるか 『Voicemod』が一石を投じる“肉声とアイデンティティの在り方”

電子メールやテキストチャットを用いる「テキストコミュニケーション」主流の時代もいまはむかし。コロナ禍を境にZoomやDiscordといったトークアプリの普及も相まって、現代では「音声コミュニケーション」の利便性が再認識されたと言える。
リモート会議やボイスチャットが広く利用される世の中になったことで、ビジネスシーンやゲーミングシーンをはじめ、私たちの生活様式は少なからず変化した。しかしながら、「肉声」を取り巻く事情はそれほど変わっていないのが実情ではないだろうか。
生まれ持った「声質」は変えようがないアイデンティティだ。しかし、対面ではなくオンラインでならいくらでも変えようはある。「容姿」については化粧や加工、ライティングの工夫などで少しでも好印象を与えようとする努力が当たり前に行われているのに、「声質」だけは生まれたままで勝負しなければならない道理はないはずだ。
そこで注目したいのが、オンラインでの「音声コミュニケーション」が主流となった現代において、この“未開拓の領域”に一石を投じるボイスチェンジャーアプリ『Voicemod』だ。本稿では、同アプリの活用法に触れつつ、多くのユーザーから信頼される理由について迫る。
いわゆる“ボイチェン声”は過去のものに 日常使いからエンタメまでこなす『Voicemod』
『Voicemod』は、すでに累計7,200万ダウンロードを突破し、200以上のオリジナルボイスと80万点以上のサウンドを提供するボイスチェンジャー&サウンドボードアプリだ。すでに多くのユーザーから支持されており、毎月2,500万時間に及ぶ音声変換が行われている。
馴染みのない方からすると、「ボイスチェンジャー」に対して、なんとなくネガティブな印象を持っていることもあるだろう。それはもしかしたら、私たちにとって最も身近に“ボイチェン声”を耳にする機会が、テレビの報道番組における匿名の告発だったり、刑事ドラマでの犯人からの脅迫電話だったりするからかもしれない。
これらのいわゆる“ケロケロボイス”や、いかにもな“悪人風ボイス”は、『Voicemod』にとって数多く用意された「ボイスフィルター」によって実現できる変声例のひとつでしかない。音声合成の利用シーンは今や“意外な場所”にも広がっている。
たとえば、コールセンターで「声質の良い人」のデータを使って満足度を上げるような活用は以前からおこなわれている(参考:AIによるリアルタイムボイス変換技術が実現する「声のソリューション」)。
上記の例では別の技術を使用しているものの、よくイメージされるような極端な変声ではなく、自然な形で「少しだけ印象を変える」のは『Voicemod』の得意とするところでもある。
『Voicemod』のボイスフィルターのひとつである「Voice Enhancer」は、個々人の「声質」の特徴を残したまま、より印象のよい声を届けられる。たとえば自分の声に「落ち着きが足りない」と感じる人なら、違和感のない範囲で低音を強調して声色に威厳を付与したり、「もっと快活な印象を与えたい」と思っている人なら中~高音域を少しだけ強調してみたり――といった使い方も可能。
「Voice Enhancer」は、『Voicemod』のPowerPitch技術を用いた非常に強力なピッチコントロールにより、声を高く・低くしても鮮明で高品質な音質を維持できることが特徴だ。違和感なく日常に溶け込む普段使いのボイスフィルターとして最適なので、ぜひとも取り入れてみてほしい。
もちろん、ゲーミングシーンなどにおけるエンタメ・バラエティ用途も大の得意。有料版の『Voicemod PRO』では200種類以上の豊富な「ボイスフィルター」ラインナップを利用でき、赤ちゃんから老人、リスやゴリラ、ロボット、ゾンビ、巨人、オーガ(鬼)にいたるまで、さまざまな声に扮することも。ファンタジー調のゲームの協力プレイ、TRPGやマーダーミステリー、『VRChat』や『Roblox』をオンラインで遊ぶ際のロールプレイなどが捗ること請け合いである。
またモチーフとして“シチュエーションボイス”的なものが用意されているのも面白いところであり、警察無線風、圏外風(ノイズが加わり途切れがちになる)などは、タクティカルシューターやホラーゲーム等の没入感を高めるためのアクセントとして大いに活用できそうだ。
さらにアプリ内の機能である「Voicelab 2.0」を使えば、自身でこうしたカスタムボイスを制作することもできる。従来の「Voicelab 1.0」ではリバーブやピッチ、ディレイなどの各項目を数値で調整するシステムだったため、知識の無いユーザーではいささかハードルが高かった。しかし、新しい「Voicelab 2.0」ではビジュアルアイコンを選択していく直感的な方式に変更。AIキャラクターやデバイス演出効果、プリセットマイク、背景音、空間効果といった設定項目を自身で選択することで、簡単にオリジナルボイスを作ることができ、他の『Voicemod』ユーザーに向けて公開することも可能。それはつまり、ほかのユーザーが作ったボイスを使用することもできるということだ。
そのほか音声コミュニケーションをさらに盛り上げるツールとしては、効果音ライブラリ&再生機能の「サウンドボード」も見逃せない。最長8分までの音声ファイルをドラッグ&ドロップの簡単操作でアップロードし使用できるうえ、他のユーザーが投稿した30万種以上の効果音を無料で利用できる。
同アプリがユーザーから支持される理由はいくつかあるが、特筆すべき点を挙げるとするならば、ひとつめは「AIの学習データ」に対する真摯な姿勢だ。著名人の声を勝手に学習するようなボイスクローンを行わず、プロの声優に正当な報酬を支払ってデータセットを作り上げている。こうした学習データはすべて「Fairly Trained」認証を取得しており、闇雲に技術を濫用するのではなく、安心して使える「表現のプラットフォーム」としての信頼を築いている。
そしてもうひとつはリアルタイムで声を変化・拡張する精度の高さとその安定性。これほどの品質を実現しているのも、Voicemod社がクリエイティブ業界――とくに音楽業界にルーツを持つ企業であると聞けば納得だ。
話し手を解放し、音声による自己表現を拡張――『Voicemod』創業者の想い
同社の現CEOを務めるハイメ・ボッシュ(Jaime Bosch)氏は、故郷のスペイン・バレンシアで視聴覚コミュニケーションの学位を取得した後、兄弟が経営するインタラクティブスタジオへと就職。モバイルアプリ開発や、オーディオビジュアルスタジオの運営に携わる傍ら、副業でテレビシリーズのカメラマンやクレイアニメの短編映画制作、ロックバンドのドキュメンタリー監督・編集なども経験したという。
転機を迎えたのは2009年。彼と兄弟らはテクノロジーと音楽の融合を試み、サイドプロジェクトとして『Voicemod Experience』という音楽アプリを開発。当時はほとんどの音声変換技術が非同期型だったこともあり、リアルタイムで声を変化させるアイデアと、それを通じて独自の自己表現を実現するよろこびに可能性を感じたハイメは、2014年をもって本プロジェクトを本格的なビジネスへと転換させたのだった。
「真に才能のある人間にとって、声は“無限の表現手段”である」。しかし、そうした幸運に恵まれた者はひと握りで、人はしばしば自分の声(特に録音された声)に違和感を覚えることがあるとハイメ氏。『Voicemod』は、それら精神的な障壁を取り除く「話し手の解放」を目指した取り組みでもあった。
本稿の序文では「肉声」に対する「ボイスチェンジャー」の位置づけについて、「容姿」に対する「化粧」と同じように捉えてみるのはどうかと提案したが、『Voicemod』を手掛けた彼はそれを「“オーディオ絵文字”と考えてみてください」と説いた。絵文字がテキストコミュニケーションの発展に貢献してきたように、『Voicemod』もまた音声コミュニケーションにおける相互理解の促進、自己表現の拡張――ひいては自己実現につながるのではないか。
その意味で『Voicemod』は、自分の「肉声」と異なる声に成り代わろうとする行為そのものよりも、声を変化・拡張させたいと思う人々の欲求や願いに寄り添うアプリであると言える。従来型の「ボイスチェンジャー」ならいざしらず、機械学習を活用する『Voicemod』ならばこその設計思想だ。
近年のデータ駆動型ディープラーニング手法の発展にともない、音韻、意図、内容、話者のアイデンティティ、感情や気分など、音声信号の知覚特性に関わる抽象的な構造が学習可能に。これらを活用することで、ユーザーが自分の「肉声」というアイデンティティをより詳細に制御する技術をも設計可能となった。
























