也很难清晰地描述出来文字转WAV音频