而是通过组织提取的过程文字转WAV音频