2019.11.13

音声合成技術によって「人間を超える声」が生まれる！？

#総合数理学部

森勢将雅明治大学　総合数理学部教授

様々な分野で応用される音声合成技術

　さらに、合成音声を、誰かの声に似せる技術も進歩しています。

　例えば、音声を、音の高さと音色というパーツに分け、それにコンピュータで手を加え、そのパーツから新たな音声波形を生成するという技術です。

　さらに、最近では、音声をパーツに分けず、音声波形のまま加工する技術も開発されています。

　いずれにせよ、誰かの音声波形に似せたものを生成することは、もう難しいことではないのです。

　例えば、簡単に言うと、まず、aさんの音声を1時間分ほど集め、次に、bさんの声を数分分ほど集めると、aさんの声をベースにbさんの声をつくることが可能なのです。

　こうした技術を活かし、社会貢献に役立てる取り組みが進んでいます。そのひとつが、喉頭がん等で声帯を切除した患者さんの声代わりをする医療応用です。

　現在では、声帯を失った患者さんは、喉にブザー音を出す機械を取り付けて喋るトレーニングをしたり、声帯に変わる器官で発声するトレーニングをしたりするなど、大変な苦労をします。

　そこで、声帯を取る前の声を録音しておき、それをベースに本人の合成音声をつくります。

　声帯の切除後は、タブロイドパソコンやスマホを使い、入力したテキストをその合成音声で読み上げる、すなわちスピーカーから出力するのです。

　すると、大変なトレーニングをすることなく、本人の音声によるコミュニケーションを続けることができるわけです。

　この取り組みはすでに製品化もされていますが、まだ高価なのです。これをもっと安価にする技術開発が様々なところで行われています。

　さらに、ブザー音を出す機械で生成された音を、ボイスチェンジャーで本人の声に変換する技術の研究も進んでいます。

　この技術が実用化されれば、テキストを入力しなくても、自分の口を動かし、普通に喋る感覚で合成音声を出力することができるようになるわけです。

　また、心理学との連携も、進んでいる分野です。

　実は、心理学では、声からイメージされる性格的特性が研究されています。この心理実験に、声の高さや音色を自由に合成できる技術が役立つのです。

　そして、例えば、人に好印象を与えるような声や喋り方がわかってくれば、人は、自分の声がそうなるようなトレーニングをすることができます。

　そのとき、パソコンやスマホに向かって話せば、それを音声分析して、もっとどういう声や話し方をすれば良いかアドバイスしたり、採点したりするシステムをつくることができます。

　このシステムは、就職活動中で面接官に好印象を残したい人や、人と話すことが苦手な人のソーシャルスキルトレーニングにも役立つと思います。

　しかし、一方で、音声合成技術を悪用した犯罪が海外で起きています。

　指定の口座にお金を振り込むことを指示する上司の電話があり、その声を信じた部下は、指示通りにお金を振り込んだのです。この上司の声は合成音声でした。

　こうした犯罪を防ぐために、実際の人の声か、合成音声かを判別する技術の開発が始まっています。

　最新の技術は悪用されることもあることを念頭に、その実用化にあたってはセキュリティ面からの研究を同時に進めることが、私たち研究者にとっては重要であると思います。

※記事の内容は、執筆者個人の考え、意見に基づくものであり、明治大学の公式見解を示すものではありません。