View on GitHub

テキスト音声合成のための CycleGAN 声質変換を用いたデータ拡張の検討

Authors


Abstruct

 特定話者の数千発話のデータを用いて,高品質なテキスト音声合成 (text-to-speech; TTS) を実現することが可能である.その一方,数千発話規模の音声収録やアノテーションにかかるコストは大きい.本稿では,対象話者 (Speaker B) の少量のデータから TTS モデルを構築するために,他話者 (Speaker A) とのデータ間で声質変換 (voice conversion; VC) を行い,対象話者のデータを拡張する方式の検討を行った.
 主観評価の結果,対象話者 5,000 発話で学習したモデルに対し,自然性評価では,対象話者 500 発話を用いてデータ拡張したモデルが匹敵する結果となり,話者類似性評価では,対象話者 2,500 発話を用いてデータ拡張したモデルが匹敵する結果となった.


Subjective Evaluation

Models

Model Type VC Training [utts] TTS Training [utts]
Natural Recorded audio (Speaker B) - -
VC Source Recorded audio (Speaker A) - -
TTS:500 TTS - 500(Rec)
TTS:5000 TTS - 5000(Rec)
TTS:500+VC4500 TTS with VC data augmentation 500:500(Rec) 500(Rec)+4500(VC)
TTS:2500+VC2500 TTS with VC data augmentation 2500:2500(Rec) 2500(Rec)+2500(VC)


5-Point MOS Results on Naturalness

4-Point MOS Results on Similarity


Audio Samples

Sample 1

Model Female Male
Natural
VC Source
TTS:500
TTS:5000
TTS:500+VC4500
TTS:2500+VC2500

Sample 2

Model Female Male
Natural
VC Source
TTS:500
TTS:5000
TTS:500+VC4500
TTS:2500+VC2500


References