所以很多时间他要听很多次文字转WAV音频