所以相对于外在的容貌文字转WAV音频