只能用听觉去辨别周围的情况文字转WAV音频