来达到同时发生的一些复杂场景的精确叙述文字转WAV音频