也基本上都是对着对面的位置拍摄的文字转WAV音频