几乎分析出了现场每一个人的强弱和气势文字转WAV音频