组成了一个稳定的三文字转WAV音频