他们从头到尾都在用一样的方式进行文字转WAV音频