所以能够捕捉到很细微的变化文字转WAV音频