ニュース

3分程の音声からその人に似た声を合成する技術。KDDI総合研究所

西村夢音

2021年10月1日 16:10

KDDI総合研究所は、3分程度の少量の音声データから、その人の声質に似た音声を合成する「高効率声質再現音声合成技術」を開発した。独自の声質を使った音声対話システムやチャットシステムなど、これまでにない新しいコミュニケーション体験ができる。

音声合成方式に、名古屋工業大学徳田恵一教授らのグループによるDNN-HSMM音声合成方式を採用。同方式は、HSMM音声合成(HSMM：隠れセミマルコフモデル)におけるHSMMパラメーターを、深層ニューラルネットワーク(DNN)でモデル化することで高品質な音声を合成するもの。

合成音声品質の低下を抑えつつ、音声の特徴を表すパラメーターの数を削減。独自のDNN適応技術を組み合わせることで、短時間の音声から高効率にその声質を再現する音声合成を実現した。

同手法を検証するため、数十名の話者による100時間以上の音声で学習した、汎用的なDNNを新規の約3分の音声で適応し、その声質を再現した合成音声を作成。この手順で作成した10声質、各5文の合成音声に対して、基となった自然音声との比較を11名の判定者により行なったところ、94%の音声で似た声質の音声が合成できていると、過半数の判定者により判定された。

今後は、他サービスから本技術を用意に利用できるようにするためのプラットフォーム化の検討を進めていく。またどこでも簡単に録音作業ができたり、より短時間の音声でも音声合成ができたりすることや、合成音声が適切に利用されることを確保する機能など、より多くの人に安全で使いやすい技術にしていくための研究開発を進める。

また、DNN-HSMM音声合成方式の処理量が他の深層学習に基づく方式よりも小さいことを生かし、日本語テキスト音声合成ソフトウェア「N2」と統合した、PCやスマートフォン、ロボット上でスタンドアローン動作する音声合成システムの開発を進めていく。