但是这个建立的基础也是比较的苛刻文字转WAV音频