所以他也是一直都在计算着文字转WAV音频