它们就会提前在哪里聚集文字转WAV音频