则是走到人群的最前端文字转WAV音频