这过程貌似有些反复且多此一举文字转WAV音频