明治大学の教授陣が社会のあらゆるテーマと向き合う、大学独自の情報発信サイト

音声合成技術によって「人間を超える声」が生まれる!?

森勢 将雅 森勢 将雅 明治大学 総合数理学部 准教授

>>英語版はこちら(English)

近年、音声合成技術がものすごい早さで進歩しています。それは、私たちの生活に貢献する一方、詐欺などの犯罪に利用されるケースもあると言います。その技術とはどういったもので、今後、どのように進化していくのでしょう。

人の自然な音声のレベルに達した合成音声

森勢 将雅 2010年代後半になり、計算機による音声読み上げ機能がスマートスピーカーやネット上のニュース番組で利用されるようになってきました。使ってみると、以前のような、いかにも機械で合成した音声ではないことに気がついた人も多いと思います。

 実は、合成音声が人の声と同じレベルに達する段階は、もう終わっていると言われているのです。

 まずは古い例からですが、例えば、バスの車内アナウンスで、「次は○○です」という合成音声が流れるとします。

 古いものはすぐに合成音声だとわかるレベルですが、それは、「つぎ」、「は」、「○○」、「です」がそれぞれ録音されてあり、「○○」停留所が近づくと、それらをただ繋げて再生しているからです。合成音声と言えば、以前はこのような仕組みでした。

 すると、例えば、助詞のイントネーションがちょっと変であったりします。本来「は」は、前後にくる単語とセットになり、イントネーションが微妙に変わるものです。繋げて再生するだけではイントネーションを考慮しておらず、元の「は」のままの発音のため違和感に繋がります。

 では、最近の技術ではどうするかと言うと、まず、日本語の音声を、音素という細かなパーツに分けて登録しておき、目的となる言葉を読むときに、音素単位で繋げられるようにします。例えば、「駅」であれば、「e」、「k」、「i」という音素を繋げる必要があります。できるだけ自然に繋げられるよう、できるだけ多くの事例を集めておくことが重要です。

 読み上げる文章が入力されると、音素の連なりのなかで、ここまでが名詞、ここが助詞、これが動詞、というように文章の構造を解析します。

 そして、単語の大まかなアクセントの情報を記録した辞書と照合します。その際、例えば、「橋」と「箸」を判別し、正しいアクセントを選択します。

 その上で、単語のアクセントが文章になったときに自然に繋がるようなイントネーションを生成し、音素を登録したデータベースから必要な音素を取り出して接続することになります。

 大まかに言うと、このような複雑な工程を一瞬で行っているのです。その結果、人が喋っているような自然な音声を合成することができるわけです。

IT・科学の関連記事

植物のストレス耐性遺伝子が、食糧危機の救世主に

2024.2.1

植物のストレス耐性遺伝子が、食糧危機の救世主に

  • 明治大学 農学部 准教授
  • 高橋 直紀
数学的見地から、生物多様性の保全をはじめとする社会課題の解決へ

2023.12.7

数学的見地から、生物多様性の保全をはじめとする社会課題の解決へ

  • 明治大学 研究・知財戦略機構 特任教授
  • 中村 健一
中小企業のDX推進こそが日本経済再興のカギ

2023.11.2

中小企業のDX推進こそが日本経済再興のカギ

  • 明治大学 経営学部 教授
  • 岡田 浩一
完全自動運転のためのセンシング技術

2023.5.10

完全自動運転のためのセンシング技術

  • 明治大学 理工学部 准教授
  • 網嶋 武

新着記事

2024.03.21

ポストコロナ時代における地方金融機関の「新ビジネス」とは

2024.03.20

就職氷河期で変わった「当たり前の未来」

2024.03.14

「道の駅」には、地域活性化の拠点となるポテンシャルがある

2024.03.13

興味関心を深めて体系化させれば「道の駅」も学問になる

2024.03.07

行政法学で見る「AIの現在地」~規制と利活用の両面から

人気記事ランキング

1

2020.04.01

歴史を紐解くと見えてくる、台湾の親日の複雑な思い

2

2023.09.12

【徹底討論】大人をしあわせにする、“学び続ける力”と“学び続けられ…

3

2023.12.20

漆の研究でコーヒーを科学する。異色の共同研究から考える、これか…

4

2023.12.25

【QuizKnock須貝さんと学ぶ】「愛ある金融」で社会が変わる、もっと…

5

2023.09.27

百聞は“一食”にしかず!藤森慎吾さんが衝撃体験した味覚メディアの…

連載記事