最主要的就是状态文字转WAV音频