从前两次的情况来推断文字转WAV音频