这样作训的时候声音跟气势才方便统一文字转WAV音频