并且根据时间来推断文字转WAV音频