这里是他们事先定好的汇合点文字转WAV音频