他们两个此时做的只是延缓文字转WAV音频