所以前期是筛选文字转WAV音频