但是那种系统的训练不仅量足文字转WAV音频