所以他们会一点点去开采文字转WAV音频