包括他的动作和表情文字转WAV音频