如果单纯从时间上来看文字转WAV音频