2018.01.19 08:00

人工知能は作曲家になり得るのか？　AI作曲の可能性を実例から検証

　近年、テクノロジーの分野ではAIが大注目されている。スマートスピーカーのように対話型のAIもあれば、積み重ねられたビッグデータから人に代わって最適解を見つけ出す演算のためのAIなど、窓口のかたちも様々だ。

　そして、音楽の分野ではAIを使った自動作曲という試みも面白くなってきている。自動作曲とは文字通り人間以外が作曲行為をするもので、つまりはソフトウェアによる作曲だ。解釈によっては「人がプログラミングしたソフトウェアの計算結果としての音楽」ともいえるので、作曲補助という表現をしているところもある。

　YAMAHAは昔から自動作曲においてかなり精力的に研究している。2014年には歌詞を入れるだけでボーカロイド曲を自動作曲するクラウドサービス「ボカロネット」を発表し（2016年9月に終了）、「Chordana Composer」という自動作曲アプリなどもリリース。鼻歌やマイク入力の音声データをもとに自動作曲をするアプリは、今や少なくない。

　こうした自動作曲は、音楽的知識を持っていない人から見れば魔法のツールのように思えるだろう。しかし知識がある人から見れば、「コード進行が普通過ぎる」「このスケールならそのメロディは違うんじゃない？」といった、いわゆる透けて見えるものもある。その感覚は経験から来るものだが、人間が快と感じる音楽のデータは果たしていかほど堆積されているのか。そこには途方もないビッグデータがあるわけで、そのデータのどの部分をピックアップするかをユーザー側が指定（ムード、テンポなど）すれば、それっぽい曲をAIが提案することはそれほど難しくない。

　実例をいくつか見ていこう。以下のビデオは自動作曲AI「Amper Music」が起こした曲に、アメリカ人ポップシンガーのTaryn Southernが歌を付けたものだ。

Break Free | Taryn Southern (Official Music Video)

　少し前の洋楽らしい、シンプルな和音進行にキャッチーでハイトーンアクセントなメロディが続く。全体で＜D＞をベースに＜F、G、B♭＞あたりを遷移している。つまりDマイナーペンタ系だ。この遷移も聴いていて違和感はない。というかペンタ系であればメロディはどこを叩いてもそう変になるものではないだろう。AIがこれを作ったと言われても、果たしてピンと来るだろうか？

　では、そもそもどうしてそんなことができるのかを、AIと自動作曲の相性の良さという部分から見ていこう。ポピュラー音楽はスケール（調）が決まっており、スケールが決まればコード（和音）も決まってくる。コードの遷移のことはコード進行と呼ばれ、＜C-F-G-C＞や＜Am-Em-F-E＞といった定番の進行が存在する。これは数学の定義のように暗記する類いのものではなく、人が快と感じる変化であるため覚えるのは容易だろう。カノン進行、泣き進行、セツナ進行など、名前が付いているものも多い。

　そうした「良い」とされるパターンは人類史に蓄積されていき、蓄積されたデータの分析はAIの得意とする分野だ。悲しいコード進行、ハッピーなコード進行という要求があり、それらしい和音を提案することは簡単である。「どういった構成音であれば悲しく感じるのか」というレベルの話なら、ルネサンス時代に決着が着いているのだから。それをAIが定量的に扱うか、人間が感覚的に扱うかの違いともいえる。和音は曲のムードを大きく左右するため、和音が読み解ければ曲のムードが決定づけられるだろう。

　次にメロディだが、これは経験のほかに乱数の入る部分でもある。ヒット音楽の法則というものに「サビでの音程差が大きい」というものがある。これは＜ミ、ソ＞という動きよりも＜ミ、シ＞という動きの方がドラマチックで印象的だというものだが、別に絶対的なものではない。和音の構成音と同じ音、あるいは拍の頭で構成音に帰ってくるような音をチョイスしていけば不快になることはないが、これは単調になりがちで、カントリーミュージックのようになる。たとえば＜悲しい曲＞のメロディを作るとして、サビの入りは＜Am＞だから＜ラ、ド、ミ＞の中から始めて、和音に対して大きくハズさない範囲で上下させればそれっぽいものはできるだろう。この「それっぽさ」を制御するには＜悲しい曲＞の傾向を数値化し、悲しさのレベルやテンポといった条件を狭めることでデータの照準を絞っていける。もう一歩進んで、メロディのダイナミクスを数値化しておけば、盛り上がり具合も指定できるだろう。

　たとえば「Shazam」などは認識した曲のスペクトログラムのピークを抽出し、膨大なビッグデータを一気に精査し楽曲をズバリ当てている。単独のピークだけでは情報が足りないので、ピークの頻度や傾向をハッシュ化し参照量を上げることで絞り込み、関連付けられた楽曲が複数ある場合はさらに複雑な処理を用いて波形を定量化し絞り込んでいる。楽曲の波形を独自ルールのもとカテゴライズするというのは、指定ジャンルから和音やリズムを提案する自動作曲と逆に行為といえるかもしれない。