还是能分辨出他们的身份文字转WAV音频