顾名思义就是每个人都被单独传送文字转WAV音频