AIは音作りをどう手助けする? Google、機械学習×シンセサイザー「NSynth Super」を開発

 機械学習が音楽の分野においても多様な意味とポジションを持つようになってきた昨今、Googleが「NSynth Super」というシンセサイザーを唐突に発表した。NSynthは、「芸術分野における機械学習の活用」というGoogleの研究プロジェクト・Magentaの活動の一環で生まれたものだ。

 まずはその動作の模様を見てもらいたい。

Making music using new sounds generated with machine learning

 NSynth本体はKAOSSILATORのようなタッチ操作がメインの楽器。タッチエリアの四隅にアサインされた音を自在に融合させ、全く新しい音を生み出すことができる。下部のツマミはADSRと切り取る波形ポジションの位置選択、四隅のツマミはアサインされた音のベロシティだろうか。

 新しい音を生み出す原理としては、まずインプットされた音同士をエンコードし、それぞれをコード上で融合、補間する(動画の1:23頃)。そうして生成された新しいコードをデコードすると、入力音からは予想もできなかったような音が出てくる流れになっている。

 動画の1:50頃では、フルートとスネアの音を融合させて新しい音を作っているが、単純にフルートとスネアを同時に鳴らした音とは似ても似つかない音になっている。どうしてこのようなことができるかというと、NSynthのアルゴリズムはその音をその音らしくするコアを学習し、そのコア同士を組み合わせることで新しい音を描くというものだからだ。フルートとスネアの波形を重ね合わせるのとはわけが違う。

 実際にNSynthを使ったデモ動画も公開されている。

Making music with NSynth Super

 同映像では、RolandのTR-08をリズム隊に、MIDIキーボードでNSynthを鳴らしてトラックメイクをしている。タッチ画面の左側には切り取る波形の位置、右側にはADSRがグラフィカルに表示されており、ライブパフォーマンスでも使いやすそうだ。ここで鳴っているような複雑な音の変化をライブ中に行うには多くのパラメーターを操作する必要があるが、NSynthならばタッチだけで完結する。

 アサインする音を変えれば生成される音も変わるため、音源コンバーターとしての可能性は無限大だろう。スネアのような膜鳴楽器でも影響があることを思えば、ホワイトノイズなどもアサインできるかもしれない。雨の音をアサインしてネイチャー系のサウンドスケープ要素を混ぜても面白い。こうなってくると、音源の数はすなわちアイデアの数になってくるだろう。

 この路線の行き着く先をいくつか妄想してみると、例えば「今鳴っている音にマッチする音はこういう音です」というような提示機能はどうだろう。AIといえばレコメンドや行動分析が主戦場だが、メインストリームの楽曲のサウンドを学習し、「このムードでのこのピアノにはこういうシンセ音が合う」といった知識を蓄積していけば、ユーザーがプリセット選びに時間を割くこともなくなるのではないだろうか。80年代のゲートスネアにはキラキラしたシンセサウンドがよく添えられていたように、ユーザーが心地良いと思う音の組み合わせをAIが提示するのは、それほど難しくないと思う。

Starship - Nothing's Gonna Stop Us Now

 とはいえこの考え方も、人間にとって心地良い音の組み合わせではなく、「当時の機材環境がそうだったから」というのが正しいだろう。定番のプリセットチョイス自体が定番化してしまうことに対するカウンターも否めないが、提示に対して選択するかどうかはいつもユーザー次第となるため、機能としてはあって損ではない気がする。作り手としても、制作速度が上がるにこしたことはない。

関連記事