我们的任务是确保抓住这个人文字转WAV音频