接下来是长达三分钟的沉默文字转WAV音频