但训练只是训练文字转WAV音频