既然两个声音是从建筑物的核心区域传来的文字转WAV音频