会有一个阶段是排除杂质的文字转WAV音频