可以说两个人所处的位置文字转WAV音频