再结合肢体语言文字转WAV音频