有了一些比较明确的感知文字转WAV音频