但是如果仅仅是用感知探查文字转WAV音频