他们会被初步挑拣文字转WAV音频