或者至少是确定东西下落之前文字转WAV音频