但却能模糊感知到他们的位置文字转WAV音频