我们一个个的辨别两个人的话文字转WAV音频