完全就是根据他的身份说的文字转WAV音频