主要是恢复性训练文字转WAV音频