最先端の音声研究の力で校歌を合唱してみたら?

音声や音楽の分析・合成・知覚などさまざまな研究に取り組む森勢将雅教授(総合数理学部)の研究室。最近では、AIによる音声・歌声合成に向けてデータベースを構築することも研究のターゲットとしています。そんな音声の最先端を走る研究室が、研究成果を用いて100年前以上前に誕生した明治大学校歌を合唱した合成音声データの作成に取り組みました。
このプロジェクトを担当した山本泰我さん(先端数理科学研究科 先端メディアサイエンス専攻、写真左)と森勢先生(写真右)に話を聞きました。
まずは先生、研究室の成果が今回の校歌合唱にどう関係しているんでしょうか?
森勢:動画では「NEUTRINO」というソフトで、「No.7」というキャラクターの歌声を利用しています。私たちは、このキャラクターで歌わせる基盤となる歌唱データベースを構築しています。このデータベースでは、プロの声優にメロディラインを作曲してもらい、音声提供者が歌いやすく、さまざまな歌を歌えるように、歌詞も工夫しています。
具体的に音声の合成を進めた山本さんは、振り返っていかがでしょうか?
山本:自分自身、合成音声を用いて初めて制作するジャンルの曲調だったので、どのような雰囲気になるのか予想がつきませんでした。しかし、完成したものを聴いてみると思ったよりもまとまりがあり、合成音声のポテンシャルの高さを改めて感じました。
取り組みを進める中で、得た気づきは?
山本:現在、歌声合成の使われる場面としては、(ジャンルとしての)ボカロをはじめとしたポップスが主流のように感じます。しかしそれだけでなく、比較的テンポが遅い歌謡曲や混声合唱とも「意外と相性が良い」と今回気づきました。日本の童謡や合唱曲を合成音声を用いてアレンジして、世界に向けて発信してみるというのも、面白いかもしれないと思っています。
一方、ポップスを対象とした音源が主流のため、扱うことが珍しい校歌で、かつ各パート1人計4人での合唱ということもあり、合唱感を残しつつも伴奏に負けないバランスに仕上げる調整が難しかったです。合唱でのバスパートにあたる低音域の音声にはいわゆる「合成臭さ」が残ってしまったと感じています。
校歌特有の難しさもあったわけですね。先生から見た山本さんの取り組みはいかがでしょうか?
森勢:背景楽曲のテンポが微妙に変わっていたため、歌声のタイミングを調整する作業や、4パートを歌わせる音源の選定で色々と議論していました。特に音源選びはセンスが出るところでもありますので、いくつかのパターンで作成してもらって、彼自身が納得できることを優先して最終的な合唱としました。本人談のとおり、特に男性の低いパートはつくり込みが難しかったと思います。
最後にお二人の今後の抱負を教えてください
森勢:研究室では現在、音声デザインに関する研究を中心にやっています。生成AIの発展は、近い将来音声・歌声合成の研究分野に大きな影響を与えると予想しています。私たちは生成AIそのものを扱うのではなく、普及した「次」を見据えたテーマ設定を考えて研究室を運営していきます。
山本:収録済みの歌声や音楽データをもとに、機械学習を用いてそれらのモデルをつくる研究に興味があります。実は、学部の卒業研究では、自ら歌って収録したラップスタイルの歌唱データを学習させて、オリジナルの学習モデルをつくる研究をしていました。収録データが少なかったので、まともな音声は生成できなかったのですが……(笑)。
大学院では学部時代に得た教訓を生かして、コンスタントに成果を出し、積極的に学会発するのが目標です。研究以外では、就職志望であるゲーム業界のサウンド部門を見据えて、ゲームサウンドに関する個人的な制作活動にも力を入れていきたいです。
ありがとうございました!
※記事の内容は、執筆者個人の考え、意見に基づくものであり、明治大学の公式見解を示すものではありません。