「本物の嵐と区別つかない」と話題 AIが歌う「A・RA・SHI」の裏側再現度のカギは？ - ITmedia

　アイドルグループ「嵐」の歌声をAIが再現するジェネレーター「A･NA･TA for DREAM」が9月14日にリリースされ、好評を得ている。Twitterでは「本物と区別がつかない」など、AIによる歌声合成の完成度の高さが話題になった。プロジェクトの技術的背景や仕組みを、開発元であるテクノスピーチの大浦圭一郎CEOに聞いた。

　「A･NA･TA for DREAM」は、13の企業が嵐とコラボして、商品などのプロモーションを実施する「HELLO NEW DREAM. PROJECT」プロジェクト内のコンテンツ。ユーザーが専用サイトにスマートフォンでアクセスし、自分の夢をテキスト入力すると、デビューシングル「A･RA･SHI」のサビの一部を嵐が歌ってくれる、という内容だ。筆者も様々な歌詞を入力して試したが、歌声合成としての再現性はもちろん、音源（楽曲）としての完成度も高く、歌声合成もここまで来たのか、という感想を持った。

５人の過去音源をAIに学習させる

歌声合成サーバは、歌を生成するだけでなくミキシングやマスタリングの機能も実装している

　まず、最初にこの歌声合成の全体的な仕組みを説明しよう。文章だけでは伝わりにくいので、図も合わせてご覧頂きたい。仕組み自体は、大きく3つのプロセスに分かれる。

　まず、AIが機械学習するためのデータを準備する。嵐のこれまでの楽曲から、ボーカルトラックのみを5人個別に抜き出した音源を用意し、その音源に対応する楽譜データも準備する。用意した楽曲はおおよそ50曲。音源は、AIが学習しやすいように人力で音程、テンポ、雑音等のチェック・修正を実施する。5人分あるので、相当な工数が必要になる。この作業に概ね1カ月を要したという。

　今回のプロジェクトでは、5人が同じメロディで歌っている部分を合成するため、5人の音源に対し、同じ楽譜データを入力する必要があった。しかし、同じ楽譜データのままでは、AIが機械学習する際に各人の歌声を区別できず誤学習してしまう。そこで「あくまでも例えですが、各人の楽譜に異なる色をつけることで、同じ音符の並びであっても、AIが5人の歌声を区別して的確に学習してくれます」（大浦CEO）と説明する。

　次に、準備したデータをもとに機械学習処理を実施する。Google Cloud Platform（GCP）やAmazon Web Services（AWS）といったパブリッククラウドを利用し、こちらも約1カ月をかけて学習させた。大浦CEOは、「GPU付きの機械学習エンジンをガンガン回すのでけっこうなクラウドの利用料が発生します」と笑うが、かかった金額については非公開としている。

　最後に、今回のプロジェクト専用の歌声合成サーバを構築し、そのサーバに機械学習で得られたAIモデルを投入する。ユーザーが入力した未知の歌詞であっても、機械学習で得られた統計学的な情報をもとに、5人それぞれの音声で本人にそっくりな歌声を生成することができる。

　歌声合成サーバは、単に歌を生成するだけでなく、バックトラックと5人のメンバーの合成音声をミキシングする機能に加え、エフェクトを施すマスタリング処理（楽曲の最終調整）の工程までをも自動で行っている。つまり、録音からマスタリングまでの一般的な楽曲の制作工程をこのサーバだけで実施していることになる。録音スタジオの機能や熟練サウンドエンジニアの知恵がまるごと収まっているようなイメージだ。

学習用にメンバーが歌う童謡を新たに収録

　機械学習用の音源は、過去の楽曲のボーカルトラックから抜き出したものを利用したと前述した。しかし、大浦CEOによれば、今回のプロジェクト用に新たに一部スタジオ収録した音源も活用しており「過去の楽曲では登場しない『みゃ、みゅ、みょ』のような特殊な音声を収録してもらいました」としている。その際、単に発語するのではなく、童謡の歌詞の一部を『みゃ』などの言葉に変えて歌ってもらうことで、AIが学習しやすくしたという。

　筆者自身、いろいろな歌詞を入力し、歌声合成を試した際に感心したことがある。自分の夢を語る部分のテキストは、8~16文字と指定されている。しかし、オリジナルの「からだじゅうにかぜをあつめて」は全部で14文字だ。当然ながら、オリジナルの譜割（音符に対する歌詞の割り当て）に対し、字足らず字余りの状況も起こり得る。この部分の処理も見事で、字足らず字余りの歌詞でも、納得できる譜割で歌ってくれる。

　「足りない部分は長音で伸ばし、字余りのところは、2文字を1音に割り当てる処理を行っています。入力された言葉を解析して、統計学的な情報をもとに処理する仕組みです。今回のプロジェクトのために、譜割専用のプログラムを開発し実装しました」（大浦CEO）

　そこで、いじわるな実験をしてみた。オリジナルと同じ歌詞「からだじゅうにかぜをあつめて」と入力すると、AIはオリジナル通りに歌うのか、という疑問だ。結果は、オリジナルとは異なっていた。次の楽譜は上がオリジナルで、下が歌声合成出力したものだ。

上がオリジナルで、下が歌声合成出力した譜割。最後の２つの16分音符は、次の歌詞の「まきおこせ」の「まき」がアウフタクト（弱起：メロディが前の小節に食い込む形で始まること）として割当られる。あくまでも簡略化した記譜であることをお許しいただきたい

　この相違点について、大浦CEOは「『からだじゅう』の『う』を入力しているからです。実際の歌では『からだじゅー』と音引きして歌われます。試しに『からだじゅに』と『う』を省略して歌わせると、かなり近くなると思います」と説明する。『う』を省略して試してみると、確かにオリジナルと同じ譜割で歌ってくれた。

ヤマハの「ボーカロイド」と何が違うのか

　歌声合成の分野では、ヤマハの「VOCALOID」（ボーカロイド）が有名だ。しかし、テクノスピーチの歌声合成とボーカロイドは、技術的なアプローチがまったく異なる。ボーカロイドはあくまでも、歌詞付きで歌メロを奏でる楽器という位置づけだ。声優などの声をサンプリングした上で、入力された歌詞と音符に対し、サンプル音源を鳴らす、という考え方で構築されており、今回のようにAIが本人の歌を学習し、歌声を作り出すというものではない。

　ただし、2019年末の紅白歌合戦で話題になったヤマハの「AI美空ひばり」は、テクノスピーチの考え方に近い技術で歌声合成を実現している。とはいえ、AI美空ひばりは、紅白歌合戦で歌唱させることを目標にしたプロジェクトだ。一度だけのステージを完璧にやり遂げることが最大の目標だ。

　そのため、機械学習で構築した美空ひばりの歌声を、技術者が自らの経験則に裏打ちされたスキルを駆使しパラメーターの調整を行うことで、あの歌を実現している。いうなれば、属人的な職人芸に支えられているわけだ。一方で、「A･NA･TA for DREAM」は、人間の手が一切加わることのない、完全に自動化された純粋なAIによる歌声合成である。

　大浦CEOによると、今回のプロジェクトは、AIによる歌声合成の最先端技術を投入して実現したという。アート系のクリエイティブコンテンツの生成は、AIにとって苦手な領域という見方もある。しかし、歌声合成された嵐の歌を聴いていると、遠くない将来には、AIが多くの人を魅了する作品を生み出す日がやってくるのではないか、という可能性を感じることができた。