但必须尽量延迟文字转WAV音频