但是由于没有人类的表情文字转WAV音频