所以我们叫他们相互指认对方文字转WAV音频