Jump to Content

テキスト音声合成技術の変遷と最先端

日本音響学会誌, vol. 74-7 (2018), pp. 387-393
Google Scholar

Abstract

テキスト音声合成 (Text-to-Speech Synthesis; TTS) とは,任意の文章 (テキスト) に対応する音声波形を合成することである.テキスト音声合成技術は,計算機資源の増大とともに,専門家による音声生成の先験的知識に基づいた規則的手法から,大規模データベースに基づいた統計的手法に移行してきた. 統計的手法には,音声データベース内の自然音声の波形を接続することで合成音を得る波形接続型 (Concatenative TTS) と,データより統計モデルを学習し,ここから直接合成音を出力する生成モデル型 (Generative TTS) がある.近年,機械学習・特に深層学習が生成モデル型に導入され,合成音の自然性が大きく向上した.また,高い自然性を保ったまま話者性の変更や感情の付与が可能になり,応用範囲が大きく広がっている.本稿では,テキスト音声合成技術の変遷及び最先端の動向と,著者が考える今後の研究課題を報告する.

Research Areas