其中两个是生人两位是熟人文字转WAV音频