2024.03.21
- 2019年11月13日
- IT・科学
音声合成技術によって「人間を超える声」が生まれる!?
森勢 将雅 明治大学 総合数理学部 准教授>>英語版はこちら(English)
近年、音声合成技術がものすごい早さで進歩しています。それは、私たちの生活に貢献する一方、詐欺などの犯罪に利用されるケースもあると言います。その技術とはどういったもので、今後、どのように進化していくのでしょう。
人の自然な音声のレベルに達した合成音声
2010年代後半になり、計算機による音声読み上げ機能がスマートスピーカーやネット上のニュース番組で利用されるようになってきました。使ってみると、以前のような、いかにも機械で合成した音声ではないことに気がついた人も多いと思います。
実は、合成音声が人の声と同じレベルに達する段階は、もう終わっていると言われているのです。
まずは古い例からですが、例えば、バスの車内アナウンスで、「次は○○です」という合成音声が流れるとします。
古いものはすぐに合成音声だとわかるレベルですが、それは、「つぎ」、「は」、「○○」、「です」がそれぞれ録音されてあり、「○○」停留所が近づくと、それらをただ繋げて再生しているからです。合成音声と言えば、以前はこのような仕組みでした。
すると、例えば、助詞のイントネーションがちょっと変であったりします。本来「は」は、前後にくる単語とセットになり、イントネーションが微妙に変わるものです。繋げて再生するだけではイントネーションを考慮しておらず、元の「は」のままの発音のため違和感に繋がります。
では、最近の技術ではどうするかと言うと、まず、日本語の音声を、音素という細かなパーツに分けて登録しておき、目的となる言葉を読むときに、音素単位で繋げられるようにします。例えば、「駅」であれば、「e」、「k」、「i」という音素を繋げる必要があります。できるだけ自然に繋げられるよう、できるだけ多くの事例を集めておくことが重要です。
読み上げる文章が入力されると、音素の連なりのなかで、ここまでが名詞、ここが助詞、これが動詞、というように文章の構造を解析します。
そして、単語の大まかなアクセントの情報を記録した辞書と照合します。その際、例えば、「橋」と「箸」を判別し、正しいアクセントを選択します。
その上で、単語のアクセントが文章になったときに自然に繋がるようなイントネーションを生成し、音素を登録したデータベースから必要な音素を取り出して接続することになります。
大まかに言うと、このような複雑な工程を一瞬で行っているのです。その結果、人が喋っているような自然な音声を合成することができるわけです。