最终声音都整齐划一的变成了文字转WAV音频