似乎都在等着对方首先开口文字转WAV音频