所用的时间应该是相同的文字转WAV音频