而是对着中间的修士文字转WAV音频