也就是说对方是完全凭借文字转WAV音频