因为可能你的延迟就会影响到后一个人的动作文字转WAV音频