然后在此基础上重新架构文字转WAV音频