因为人质太多不好控制文字转WAV音频