随后再次抽取凝聚文字转WAV音频