至少得做出足够的姿态文字转WAV音频