最后不协调的声音被忽视了文字转WAV音频