自己问的是对方身份文字转WAV音频