他要做的不是完全理解文字转WAV音频