是会有一定的感知力的文字转WAV音频