但是目前训练的是如何武装文字转WAV音频