只能被动地感受着文字转WAV音频