是为了避免口述的不完整性和记忆错误文字转WAV音频